論文の概要: Learning Item Representations Directly from Multimodal Features for Effective Recommendation
- arxiv url: http://arxiv.org/abs/2505.04960v1
- Date: Thu, 08 May 2025 05:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.756097
- Title: Learning Item Representations Directly from Multimodal Features for Effective Recommendation
- Title(参考訳): 効果的なレコメンデーションのためのマルチモーダル特徴から直接の項目表現の学習
- Authors: Xin Zhou, Xiaoxiong Zhang, Dusit Niyato, Zhiqi Shen,
- Abstract要約: マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
- 参考スコア(独自算出の注目度): 51.49251689107541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional multimodal recommender systems predominantly leverage Bayesian Personalized Ranking (BPR) optimization to learn item representations by amalgamating item identity (ID) embeddings with multimodal features. Nevertheless, our empirical and theoretical findings unequivocally demonstrate a pronounced optimization gradient bias in favor of acquiring representations from multimodal features over item ID embeddings. As a consequence, item ID embeddings frequently exhibit suboptimal characteristics despite the convergence of multimodal feature parameters. Given the rich informational content inherent in multimodal features, in this paper, we propose a novel model (i.e., LIRDRec) that learns item representations directly from these features to augment recommendation performance. Recognizing that features derived from each modality may capture disparate yet correlated aspects of items, we propose a multimodal transformation mechanism, integrated with modality-specific encoders, to effectively fuse features from all modalities. Moreover, to differentiate the influence of diverse modality types, we devise a progressive weight copying fusion module within LIRDRec. This module incrementally learns the weight assigned to each modality in synthesizing the final user or item representations. Finally, we utilize the powerful visual understanding of Multimodal Large Language Models (MLLMs) to convert the item images into texts and extract semantics embeddings upon the texts via LLMs. Empirical evaluations conducted on five real-world datasets validate the superiority of our approach relative to competing baselines. It is worth noting the proposed model, equipped with embeddings extracted from MLLMs and LLMs, can further improve the recommendation accuracy of NDCG@20 by an average of 4.21% compared to the original embeddings.
- Abstract(参考訳): 従来のマルチモーダルレコメンデータシステムは、ベイズパーソナライズされたランク付け(BPR)最適化を利用して、アイテムアイデンティティ(ID)埋め込みとマルチモーダル特徴をマッチングすることでアイテム表現を学習する。
しかし, 実験的, 理論的には, アイテムIDの埋め込みよりも多モーダルな特徴から表現を得る方が, 明らかな最適化勾配バイアスを示す。
その結果,多モーダルな特徴パラメータの収束にもかかわらず,アイテムIDの埋め込みは最適以下の特徴を示すことが多かった。
本稿では,マルチモーダルな特徴に固有の豊富な情報内容から,これらの特徴から直接項目表現を学習し,推薦性能を向上させる新しいモデル(LIRDRec)を提案する。
各モードから派生した特徴がアイテムの異なる相関的な側面を捉えうることを認識し、モーダル固有のエンコーダと統合されたマルチモーダル変換機構を提案し、全てのモーダルから特徴を効果的に融合させる。
さらに,多種多様性の影響を区別するために,LIRDRec内にプログレッシブ・ウェイト・コピー・フュージョン・モジュールを考案した。
このモジュールは、最終ユーザまたはアイテム表現を合成する際に、各モダリティに割り当てられた重みを漸進的に学習する。
最後に,Multimodal Large Language Models (MLLM) の強力な視覚的理解を利用して,項目画像をテキストに変換し,LLMを通じてテキストに埋め込まれたセマンティックスを抽出する。
5つの実世界のデータセットで実施した実証的な評価は、競合するベースラインと比較して、我々のアプローチの優位性を検証する。
MLLMやLCMから抽出した埋め込みを組み込んだモデルでは,NDCG@20の推奨精度を,従来の埋め込みよりも平均4.21%向上させることができる。
関連論文リスト
- IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation [4.518104756199573]
Molarは、複数のコンテンツモダリティとID情報を統合するシーケンシャルなレコメンデーションフレームワークで、協調的な信号を効果的にキャプチャする。
マルチモーダルコンテンツと協調フィルタリングの洞察をシームレスに組み合わせることで、Molarはユーザの関心事とコンテキスト意味論の両方をキャプチャし、より優れた推奨精度をもたらす。
論文 参考訳(メタデータ) (2024-12-24T05:23:13Z) - Triple Modality Fusion: Aligning Visual, Textual, and Graph Data with Large Language Models for Multi-Behavior Recommendations [13.878297630442674]
本稿では,三重モダリティの融合を活かした,多行動レコメンデーションのための新しいフレームワークを提案する。
提案モデルであるTriple Modality Fusion (TMF)は,大規模言語モデル(LLM)のパワーを利用して,これらの3つのモダリティを調整・統合する。
大規模な実験により,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2024-10-16T04:44:15Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - MM-GEF: Multi-modal representation meet collaborative filtering [43.88159639990081]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。