論文の概要: A Remarkably Efficient Paradigm to Multimodal Large Language Models for Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2511.05885v1
- Date: Sat, 08 Nov 2025 06:51:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.638923
- Title: A Remarkably Efficient Paradigm to Multimodal Large Language Models for Sequential Recommendation
- Title(参考訳): シークエンシャルレコメンデーションのための多モーダル大言語モデルに対する顕著なパラダイム
- Authors: Qiyong Zhong, Jiajie Su, Ming Yang, Yunshan Ma, Xiaolin Zheng, Chaochao Chen,
- Abstract要約: 逐次レコメンデーションのためのマルチモーダルな大規模言語モデルに対する極めて効率的なパラダイムであるSpeederを提案する。
Speeder は,(1) 項目記述の冗長性を効率的に低減するマルチモーダル表現圧縮 (MRC) ,(2) 複雑な逐次的依存関係を捕捉するモデルの能力を強化する逐次的位置認識強調 (SPAE) ,(3) モダリティ対応プログレッシブ最適化 (MPO) の3つの重要なコンポーネントを紹介した。
- 参考スコア(独自算出の注目度): 33.469423146286296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we proposed Speeder, a remarkably efficient paradigm to multimodal large language models for sequential recommendation. Speeder introduces 3 key components: (1) Multimodal Representation Compression (MRC), which efficiently reduces redundancy in item descriptions; (2) Sequential Position Awareness Enhancement (SPAE), which strengthens the model's ability to capture complex sequential dependencies; (3) Modality-aware Progressive Optimization (MPO), which progressively integrates different modalities to improve the model's understanding and reduce cognitive biases. Through extensive experiments, Speeder demonstrates superior performance over baselines in terms of VHR@1 and computational efficiency. Specifically, Speeder achieved 250% of the training speed and 400% of the inference speed compared to the state-of-the-art MLLM-based SR models. Future work could focus on incorporating real-time feedback from real-world systems.
- Abstract(参考訳): 本稿では,マルチモーダルな大規模言語モデルに対する極めて効率的なパラダイムであるSpeederを提案する。
Speeder は,(1) 項目記述における冗長性を効率的に低減するマルチモーダル表現圧縮 (MRC) ,(2) 複雑な逐次的依存関係を捕捉するモデルの能力を強化する逐次的位置認識強調 (SPAE) ,(3) モダリティ対応プログレッシブ最適化 (MPO) の3つの重要なコンポーネントを紹介した。
広範な実験を通じて、SpeederはVHR@1と計算効率の点で、ベースラインよりも優れたパフォーマンスを示している。
特に、Speederは最先端のMLLMベースのSRモデルと比較してトレーニング速度の250%、推論速度の400%を達成した。
将来の作業は、現実世界のシステムからのリアルタイムフィードバックを取り入れることに集中できる。
関連論文リスト
- Transferable Sequential Recommendation with Vanilla Cross-Entropy Loss [2.0048375809706274]
Sequential Recommendation (SR)システムでは、インタラクション履歴を分析してユーザの好みをモデル化する。
現在の手法は、新しいドメインに適応する際にかなりの微調整コストを発生させる。
MMM4Recは、効率的な伝達学習のための専用代数的制約機構を組み込んだ、新しいマルチモーダルSRフレームワークである。
論文 参考訳(メタデータ) (2025-06-03T14:18:19Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - STLLM-DF: A Spatial-Temporal Large Language Model with Diffusion for Enhanced Multi-Mode Traffic System Forecasting [32.943673568195315]
マルチタスク輸送予測を改善するため,時空間大言語モデル(STLLM-DF)を提案する。
DDPMの堅牢なdenoising機能により、ノイズの多い入力から基盤となるデータパターンを復元することができる。
STLLM-DFは既存のモデルより一貫して優れており,MAEでは平均2.40%,RMSEでは4.50%,MAPEでは1.51%の削減を実現している。
論文 参考訳(メタデータ) (2024-09-08T15:29:27Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - SmartTrim: Adaptive Tokens and Attention Pruning for Efficient
Vision-Language Models [35.5601603013045]
視覚言語モデル(VLM)のための適応加速度フレームワークであるSmartTrimを提案する。
軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定し、実行します。
我々は,プレナードモデルの予測と完全容量との整合性を高めるための自己蒸留戦略を考案した。
論文 参考訳(メタデータ) (2023-05-24T11:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。