論文の概要: A Remarkably Efficient Paradigm to Multimodal Large Language Models for Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2511.05885v2
- Date: Wed, 12 Nov 2025 01:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 16:10:52.856374
- Title: A Remarkably Efficient Paradigm to Multimodal Large Language Models for Sequential Recommendation
- Title(参考訳): シークエンシャルレコメンデーションのための多モーダル大言語モデルに対する顕著なパラダイム
- Authors: Qiyong Zhong, Jiajie Su, Ming Yang, Yunshan Ma, Xiaolin Zheng, Chaochao Chen,
- Abstract要約: 時系列レコメンデーション(SR)は、ユーザの過去の行動に基づいて、ユーザの将来のインタラクションを予測する。
我々は3つの重要な革新を特徴とするSRのための効率的なMLLMベースのパラダイムであるSpeederを提案する。
Speederはトレーニング速度をオリジナルの250%に引き上げ、推論時間をAmazonデータセットで25%に削減する。
- 参考スコア(独自算出の注目度): 33.469423146286296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential recommendations (SR) predict users' future interactions based on their historical behavior. The rise of Large Language Models (LLMs) has brought powerful generative and reasoning capabilities, significantly enhancing SR performance, while Multimodal LLMs (MLLMs) further extend this by introducing data like images and interactive relationships. However, critical issues remain, i.e., (a) Suboptimal item representations caused by lengthy and redundant descriptions, leading to inefficiencies in both training and inference; (b) Modality-related cognitive bias, as LLMs are predominantly pretrained on textual data, limiting their ability to effectively integrate and utilize non-textual modalities; (c) Weakening sequential perception in long interaction sequences, where attention mechanisms struggle to capture earlier interactions, hindering the modeling of long-range dependencies. To address these issues, we propose Speeder, an efficient MLLM-based paradigm for SR featuring three key innovations: 1) Multimodal Representation Compression (MRC), which condenses item attributes into concise yet informative tokens, reducing redundancy and computational cost; 2) Modality-aware Progressive Optimization (MPO), enabling gradual learning of multimodal representations; 3) Sequential Position Awareness Enhancement (SPAE), improving the LLM's capability to capture both relative and absolute sequential dependencies in long interaction sequences. Extensive experiments on real-world datasets demonstrate the effectiveness and efficiency of Speeder. Speeder increases training speed to 250% of the original while reducing inference time to 25% on the Amazon dataset.
- Abstract(参考訳): 時系列レコメンデーション(SR)は、ユーザの過去の行動に基づいて、ユーザの将来のインタラクションを予測する。
LLM(Large Language Models)の台頭は、強力な生成能力と推論能力をもたらし、SR性能を大幅に向上させ、Multimodal LLM(MLLM)は画像や対話的関係などのデータを導入してこれをさらに拡張した。
しかし、重大な問題は残されている。
イ 長大かつ冗長な説明による最適下品表現で、訓練及び推論の双方において非効率となること。
b) モダリティに関する認知バイアスは、LLMが主にテキストデータに基づいて事前訓練されており、非テキストモダリティを効果的に統合し活用する能力を制限するためである。
注意機構が先行相互作用を捉えるのに苦労し、長距離依存のモデリングを妨げている。
これらの問題に対処するために,我々は,3つの重要なイノベーションを特徴とする,SRのための効率的なMLLMベースのパラダイムであるSpeederを提案する。
1) 商品属性を簡潔にかつ情報的なトークンに縮合し、冗長性と計算コストを低減させるマルチモーダル表現圧縮(MRC)
2)マルチモーダル表現の段階的学習を可能にするモダリティ対応プログレッシブ最適化(MPO)
3)SPAE(Sequential Position Awareness Enhancement)により,LLMの長期相互作用シーケンスにおける相対的および絶対的相互依存を捕捉する能力が改善された。
実世界のデータセットに関する大規模な実験は、Speederの有効性と効率を実証している。
Speederはトレーニング速度をオリジナルの250%に引き上げ、推論時間をAmazonデータセットで25%に削減する。
関連論文リスト
- Transferable Sequential Recommendation with Vanilla Cross-Entropy Loss [2.0048375809706274]
Sequential Recommendation (SR)システムでは、インタラクション履歴を分析してユーザの好みをモデル化する。
現在の手法は、新しいドメインに適応する際にかなりの微調整コストを発生させる。
MMM4Recは、効率的な伝達学習のための専用代数的制約機構を組み込んだ、新しいマルチモーダルSRフレームワークである。
論文 参考訳(メタデータ) (2025-06-03T14:18:19Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - STLLM-DF: A Spatial-Temporal Large Language Model with Diffusion for Enhanced Multi-Mode Traffic System Forecasting [32.943673568195315]
マルチタスク輸送予測を改善するため,時空間大言語モデル(STLLM-DF)を提案する。
DDPMの堅牢なdenoising機能により、ノイズの多い入力から基盤となるデータパターンを復元することができる。
STLLM-DFは既存のモデルより一貫して優れており,MAEでは平均2.40%,RMSEでは4.50%,MAPEでは1.51%の削減を実現している。
論文 参考訳(メタデータ) (2024-09-08T15:29:27Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - SmartTrim: Adaptive Tokens and Attention Pruning for Efficient
Vision-Language Models [35.5601603013045]
視覚言語モデル(VLM)のための適応加速度フレームワークであるSmartTrimを提案する。
軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定し、実行します。
我々は,プレナードモデルの予測と完全容量との整合性を高めるための自己蒸留戦略を考案した。
論文 参考訳(メタデータ) (2023-05-24T11:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。