論文の概要: MLLMRec: Exploring the Potential of Multimodal Large Language Models in Recommender Systems
- arxiv url: http://arxiv.org/abs/2508.15304v1
- Date: Thu, 21 Aug 2025 06:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.216052
- Title: MLLMRec: Exploring the Potential of Multimodal Large Language Models in Recommender Systems
- Title(参考訳): MLLMRec:レコメンダシステムにおけるマルチモーダル大言語モデルの可能性を探る
- Authors: Yuzhuo Dang, Xin Zhang, Zhiqiang Pan, Yuxiao Duan, Wanyu Chen, Fei Cai, Honghui Chen,
- Abstract要約: 本稿では,MLLM方式のマルチモーダル・レコメンデーション・フレームワークを提案する。
MLLMRecは、最高のベースラインよりも平均38.53%改善して最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 8.744074431975019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal recommendation typically combines the user behavioral data with the modal features of items to reveal user's preference, presenting superior performance compared to the conventional recommendations. However, existing methods still suffer from two key problems: (1) the initialization methods of user multimodal representations are either behavior-unperceived or noise-contaminated, and (2) the KNN-based item-item graph contains noisy edges with low similarities and lacks audience co-occurrence relationships. To address such issues, we propose MLLMRec, a novel MLLM-driven multimodal recommendation framework with two item-item graph refinement strategies. On the one hand, the item images are first converted into high-quality semantic descriptions using an MLLM, which are then fused with the textual metadata of items. Then, we construct a behavioral description list for each user and feed it into the MLLM to reason about the purified user preference containing interaction motivations. On the other hand, we design the threshold-controlled denoising and topology-aware enhancement strategies to refine the suboptimal item-item graph, thereby enhancing the item representation learning. Extensive experiments on three publicly available datasets demonstrate that MLLMRec achieves the state-of-the-art performance with an average improvement of 38.53% over the best baselines.
- Abstract(参考訳): マルチモーダルレコメンデーションは、通常、ユーザの行動データとアイテムのモーダル特徴を組み合わせることで、ユーザの好みを明らかにし、従来のレコメンデーションよりも優れたパフォーマンスを示す。
しかし, 既存の手法では, 1) ユーザのマルチモーダル表現の初期化手法は, 動作非知覚かノイズ汚染かのいずれかであり, (2) KNN をベースとしたアイテム・イテムグラフは, 類似度が低く, オーディエンス共起関係が欠如している。
このような問題に対処するため,MLLM による新しいマルチモーダルレコメンデーションフレームワーク MLLMRec を提案する。
一方, 項目画像はMLLMを用いて高品質な意味記述に変換され, 項目のテキストメタデータと融合する。
次に、各ユーザに対して行動記述リストを構築し、MLLMにフィードして、インタラクションモチベーションを含む純粋ユーザ嗜好を推論する。
一方, 閾値制御型 denoising と Topology-aware による拡張戦略を設計し, アイテム表現学習の高度化を図る。
3つの公開データセットに対する大規模な実験は、MLLMRecが最先端のパフォーマンスを達成し、最高のベースラインよりも平均38.53%向上していることを示している。
関連論文リスト
- MathOPEval: A Fine-grained Evaluation Benchmark for Visual Operations of MLLMs in Mathematical Reasoning [57.42710816140401]
有望なアプローチでは、中間表現としてコードを使用し、推論ステップで画像を正確に表現し、操作する。
既存の評価はテキストのみの推論出力に重点を置いており、MLLMはコードによる正確な視覚操作をほとんど探索されていないままにしている。
この研究は、マルチモーダル数学的推論におけるMLLMのコードベース能力を評価することによって、そのギャップに対処する第一歩を踏み出した。
論文 参考訳(メタデータ) (2025-07-24T07:03:11Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - Improved Diversity-Promoting Collaborative Metric Learning for Recommendation [127.08043409083687]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。
本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。
textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T07:44:48Z) - Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation [21.281471662696372]
本稿では,MLLM-MSRモデルを提案する。
動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。
次に、ユーザ嗜好の動的変化を捉えるために、繰り返しユーザー嗜好要約生成パラダイムを用いる。
論文 参考訳(メタデータ) (2024-08-19T04:44:32Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - MMGRec: Multimodal Generative Recommendation with Transformer Model [81.61896141495144]
MMGRecは、マルチモーダルレコメンデーションに生成パラダイムを導入することを目指している。
まず,階層的な量子化手法であるGraph CF-RQVAEを考案し,各項目にRec-IDを割り当てる。
次に、Transformerベースのレコメンデータをトレーニングし、過去のインタラクションシーケンスに基づいて、ユーザが推奨するアイテムのRec-IDを生成する。
論文 参考訳(メタデータ) (2024-04-25T12:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。