論文の概要: DMESR: Dual-view MLLM-based Enhancing Framework for Multimodal Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2602.13715v1
- Date: Sat, 14 Feb 2026 10:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.358798
- Title: DMESR: Dual-view MLLM-based Enhancing Framework for Multimodal Sequential Recommendation
- Title(参考訳): DMESR:マルチモーダルシーケンスレコメンデーションのためのデュアルビューMLLMベースのエンハンシングフレームワーク
- Authors: Mingyao Huang, Qidong Liu, Wenxuan Yang, Moranxin Wang, Yuqi Sun, Haiping Zhu, Feng Tian, Yan Chen,
- Abstract要約: マルチモーダルシーケンスレコメンデーション(DMESR)のためのデュアルビューMLLMベースのエンハンシングフレームワークを提案する。
ここでは,MLLM が生成する言語間の意味表現の整合に,コントラスト学習機構を用いる。
細粒度セマンティクスを欠くために,MLLMから得られた粗粒度セマンティクスと細粒度テキストセマンティクスを統合したクロスアテンション融合モジュールを導入する。
- 参考スコア(独自算出の注目度): 13.114773060703891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential Recommender Systems (SRS) aim to predict users' next interaction based on their historical behaviors, while still facing the challenge of data sparsity. With the rapid advancement of Multimodal Large Language Models (MLLMs), leveraging their multimodal understanding capabilities to enrich item semantic representation has emerged as an effective enhancement strategy for SRS. However, existing MLLM-enhanced recommendation methods still suffer from two key limitations. First, they struggle to effectively align multimodal representations, leading to suboptimal utilization of semantic information across modalities. Second, they often overly rely on MLLM-generated content while overlooking the fine-grained semantic cues contained in the original textual data of items. To address these issues, we propose a Dual-view MLLM-based Enhancing framework for multimodal Sequential Recommendation (DMESR). For the misalignment issue, we employ a contrastive learning mechanism to align the cross-modal semantic representations generated by MLLMs. For the loss of fine-grained semantics, we introduce a cross-attention fusion module that integrates the coarse-grained semantic knowledge obtained from MLLMs with the fine-grained original textual semantics. Finally, these two fused representations can be seamlessly integrated into the downstream sequential recommendation models. Extensive experiments conducted on three real-world datasets and three popular sequential recommendation architectures demonstrate the superior effectiveness and generalizability of our proposed approach.
- Abstract(参考訳): SRS(Sequential Recommender Systems)は,ユーザの履歴行動に基づいて,ユーザの次のインタラクションを予測することを目的としている。
MLLM(Multimodal Large Language Models)の急速な進歩に伴い、SRSの効果的な強化戦略として、項目意味表現を充実させるマルチモーダル理解能力が出現している。
しかし、既存のMLLM強化レコメンデーション手法には2つの重要な制限がある。
まず、マルチモーダル表現を効果的に整合させることに苦慮し、モダリティをまたいだセマンティック情報の最適部分の利用に繋がる。
第二に、MLLMが生成したコンテンツに頼りすぎ、元のテキストデータに含まれるきめ細かいセマンティックな手がかりを見落としてしまうことも多い。
これらの課題に対処するため、マルチモーダルシーケンスレコメンデーション(DMESR)のためのデュアルビューMLLMベースのエンハンシングフレームワークを提案する。
ここでは,MLLM が生成する言語間の意味表現の整合に,コントラスト学習機構を用いる。
細粒度セマンティクスの欠如に対して,MLLMから得られた粗粒度セマンティクスと細粒度テキストセマンティクスを統合したクロスアテンション融合モジュールを導入する。
最後に、これら2つの融合表現は、下流のシーケンシャルレコメンデーションモデルにシームレスに統合できる。
3つの実世界のデータセットと3つの一般的なシーケンシャルレコメンデーションアーキテクチャで実施された大規模な実験は、提案手法の優れた有効性と一般化性を示すものである。
関連論文リスト
- MMSRARec: Summarization and Retrieval Augumented Sequential Recommendation Based on Multimodal Large Language Model [18.920729109005435]
本稿では,マルチモーダル要約と検索拡張シーケンスレコメンデーションを提案する。
まずMLLMを用いて、項目を簡潔なキーワードに要約し、要約長、情報損失、再構成難易度を含む報酬を用いてモデルを微調整する。
検索拡張生成にインスパイアされ、協調信号を対応するキーワードに変換し、補足コンテキストとして統合する。
論文 参考訳(メタデータ) (2025-12-24T03:44:25Z) - Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs [28.752042722391934]
シークエンシャルレコメンデーション(SR)は,ユーザの動的関心や時系列パターンを過去のインタラクションに基づいて捉えることを目的としている。
MME-SIDは多モード埋め込みと量子埋め込みを統合し、埋め込み崩壊を緩和する。
3つの公開データセットに対する大規模な実験により、MME-SIDの優れた性能が検証された。
論文 参考訳(メタデータ) (2025-09-02T07:02:29Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。
近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。
蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文 参考訳(メタデータ) (2025-04-13T07:49:08Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。
従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - Unleash LLMs Potential for Recommendation by Coordinating Twin-Tower Dynamic Semantic Token Generator [60.07198935747619]
動的セマンティック・インデックス・パラダイムを採用した最初の生成型RSであるTTDS(Twin-Tower Dynamic Semantic Recommender)を提案する。
より具体的には、ツイン・トワー・セマンティック・トークン・ジェネレータをLLMベースのレコメンデータに統合する動的知識融合フレームワークを初めて提案する。
提案したTTDSレコメンデータは,平均19.41%のヒットレート,20.84%のNDCG測定値を実現している。
論文 参考訳(メタデータ) (2024-09-14T01:45:04Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。