論文の概要: MMSRARec: Summarization and Retrieval Augumented Sequential Recommendation Based on Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2512.20916v1
- Date: Wed, 24 Dec 2025 03:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.667862
- Title: MMSRARec: Summarization and Retrieval Augumented Sequential Recommendation Based on Multimodal Large Language Model
- Title(参考訳): マルチモーダル大言語モデルに基づくMMSRARecの要約と検索シーケンスレコメンデーション
- Authors: Haoyu Wang, Yitong Wang, Jining Wang,
- Abstract要約: 本稿では,マルチモーダル要約と検索拡張シーケンスレコメンデーションを提案する。
まずMLLMを用いて、項目を簡潔なキーワードに要約し、要約長、情報損失、再構成難易度を含む報酬を用いてモデルを微調整する。
検索拡張生成にインスパイアされ、協調信号を対応するキーワードに変換し、補足コンテキストとして統合する。
- 参考スコア(独自算出の注目度): 18.920729109005435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated significant potential in recommendation systems. However, the effective application of MLLMs to multimodal sequential recommendation remains unexplored: A) Existing methods primarily leverage the multimodal semantic understanding capabilities of pre-trained MLLMs to generate item embeddings or semantic IDs, thereby enhancing traditional recommendation models. These approaches generate item representations that exhibit limited interpretability, and pose challenges when transferring to language model-based recommendation systems. B) Other approaches convert user behavior sequence into image-text pairs and perform recommendation through multiple MLLM inference, incurring prohibitive computational and time costs. C) Current MLLM-based recommendation systems generally neglect the integration of collaborative signals. To address these limitations while balancing recommendation performance, interpretability, and computational cost, this paper proposes MultiModal Summarization-and-Retrieval-Augmented Sequential Recommendation. Specifically, we first employ MLLM to summarize items into concise keywords and fine-tune the model using rewards that incorporate summary length, information loss, and reconstruction difficulty, thereby enabling adaptive adjustment of the summarization policy. Inspired by retrieval-augmented generation, we then transform collaborative signals into corresponding keywords and integrate them as supplementary context. Finally, we apply supervised fine-tuning with multi-task learning to align the MLLM with the multimodal sequential recommendation. Extensive evaluations on common recommendation datasets demonstrate the effectiveness of MMSRARec, showcasing its capability to efficiently and interpretably understand user behavior histories and item information for accurate recommendations.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、レコメンデーションシステムにおいて大きな可能性を示している。
しかし、MLLMのマルチモーダルシーケンシャルレコメンデーションへの効果的な適用は、A)既存の手法は主に、事前訓練されたMLLMのマルチモーダルセマンティック理解能力を利用してアイテム埋め込みやセマンティックIDを生成し、従来のレコメンデーションモデルを強化する。
これらの手法は、限定的な解釈可能性を示す項目表現を生成し、言語モデルに基づくレコメンデーションシステムに移行する際の課題を提起する。
B) その他のアプローチでは,ユーザ行動シーケンスを画像テキストペアに変換し,複数のMLLM推論を通じて推奨を行い,計算コストや時間コストを禁ずる。
C)現在のMLLMベースのレコメンデーションシステムは、一般に協調的な信号の統合を無視する。
提案手法は,推奨性能,解釈可能性,計算コストのバランスを保ちながら,これらの制約に対処するため,マルチモーダル・サマライズ・アンド・レトリヴァル・アグリゲート・シーケンス・レコメンデーションを提案する。
具体的には、まずMLLMを用いて項目を簡潔なキーワードに要約し、要約長、情報損失、再構成困難を含む報酬を用いてモデルを微調整し、要約ポリシーの適応的な調整を可能にする。
検索拡張生成にインスパイアされ、協調信号を対応するキーワードに変換し、補足コンテキストとして統合する。
最後に、マルチタスク学習による教師付き微調整を適用し、MLLMとマルチモーダルシーケンシャルレコメンデーションを整合させる。
一般的なレコメンデーションデータセットに対する広範囲な評価は、MMSRARecの有効性を示し、ユーザの行動履歴と正確なレコメンデーションのための項目情報とを効率的に解釈する能力を示している。
関連論文リスト
- Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文 参考訳(メタデータ) (2025-11-24T04:10:46Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation [57.49045064294086]
大きな言語モデル(LLM)は、その人気とは無関係に、アイテム間の意味的関係をキャプチャする能力を持つ。
LLMEmb(LLMEmb)は、LCMを利用してアイテム埋め込みを生成し、逐次レコメンダシステム(SRS)の性能を向上させる手法である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - Laser: Parameter-Efficient LLM Bi-Tuning for Sequential Recommendation with Collaborative Information [76.62949982303532]
協調情報を用いた逐次レコメンデーションのためのパラメータ効率の高い大規模言語モデルバイチューニングフレームワーク(Laser)を提案する。
我々のレーザーでは,プレフィックスを用いてユーザと協調的な情報を取り込み,LLMをレコメンデーションタスクに適応させ,サフィックスは言語空間からレコメンデーションスペースへのLLMの出力埋め込みをリコメンデーション項目レコメンデーションスペースに変換する。
M-Formerは軽量なMoEベースのクエリ変換器で、クエリ専門家のセットを使用して、凍結IDベースのシーケンシャルレコメンデータシステムによって符号化された多様なユーザ固有の協調情報を統合する。
論文 参考訳(メタデータ) (2024-09-03T04:55:03Z) - Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation [21.281471662696372]
本稿では,MLLM-MSRモデルを提案する。
動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。
次に、ユーザ嗜好の動的変化を捉えるために、繰り返しユーザー嗜好要約生成パラダイムを用いる。
論文 参考訳(メタデータ) (2024-08-19T04:44:32Z) - Beyond Inter-Item Relations: Dynamic Adaption for Enhancing LLM-Based Sequential Recommendation [83.87767101732351]
逐次リコメンデータシステム(SRS)は,ユーザの過去のインタラクションシーケンスに基づいて,ユーザが好む次の項目を予測する。
様々なAIアプリケーションにおける大規模言語モデル(LLM)の台頭に触発されて、LLMベースのSRSの研究が急増している。
我々は,大きめの粒度適応の上に構築された逐次レコメンデーションモデルであるDARecを提案する。
論文 参考訳(メタデータ) (2024-08-14T10:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。