論文の概要: Learning Item Representations Directly from Multimodal Features for Effective Recommendation
- arxiv url: http://arxiv.org/abs/2505.04960v1
- Date: Thu, 08 May 2025 05:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.756097
- Title: Learning Item Representations Directly from Multimodal Features for Effective Recommendation
- Title(参考訳): 効果的なレコメンデーションのためのマルチモーダル特徴から直接の項目表現の学習
- Authors: Xin Zhou, Xiaoxiong Zhang, Dusit Niyato, Zhiqi Shen,
- Abstract要約: マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
- 参考スコア(独自算出の注目度): 51.49251689107541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional multimodal recommender systems predominantly leverage Bayesian Personalized Ranking (BPR) optimization to learn item representations by amalgamating item identity (ID) embeddings with multimodal features. Nevertheless, our empirical and theoretical findings unequivocally demonstrate a pronounced optimization gradient bias in favor of acquiring representations from multimodal features over item ID embeddings. As a consequence, item ID embeddings frequently exhibit suboptimal characteristics despite the convergence of multimodal feature parameters. Given the rich informational content inherent in multimodal features, in this paper, we propose a novel model (i.e., LIRDRec) that learns item representations directly from these features to augment recommendation performance. Recognizing that features derived from each modality may capture disparate yet correlated aspects of items, we propose a multimodal transformation mechanism, integrated with modality-specific encoders, to effectively fuse features from all modalities. Moreover, to differentiate the influence of diverse modality types, we devise a progressive weight copying fusion module within LIRDRec. This module incrementally learns the weight assigned to each modality in synthesizing the final user or item representations. Finally, we utilize the powerful visual understanding of Multimodal Large Language Models (MLLMs) to convert the item images into texts and extract semantics embeddings upon the texts via LLMs. Empirical evaluations conducted on five real-world datasets validate the superiority of our approach relative to competing baselines. It is worth noting the proposed model, equipped with embeddings extracted from MLLMs and LLMs, can further improve the recommendation accuracy of NDCG@20 by an average of 4.21% compared to the original embeddings.
- Abstract(参考訳): 従来のマルチモーダルレコメンデータシステムは、ベイズパーソナライズされたランク付け(BPR)最適化を利用して、アイテムアイデンティティ(ID)埋め込みとマルチモーダル特徴をマッチングすることでアイテム表現を学習する。
しかし, 実験的, 理論的には, アイテムIDの埋め込みよりも多モーダルな特徴から表現を得る方が, 明らかな最適化勾配バイアスを示す。
その結果,多モーダルな特徴パラメータの収束にもかかわらず,アイテムIDの埋め込みは最適以下の特徴を示すことが多かった。
本稿では,マルチモーダルな特徴に固有の豊富な情報内容から,これらの特徴から直接項目表現を学習し,推薦性能を向上させる新しいモデル(LIRDRec)を提案する。
各モードから派生した特徴がアイテムの異なる相関的な側面を捉えうることを認識し、モーダル固有のエンコーダと統合されたマルチモーダル変換機構を提案し、全てのモーダルから特徴を効果的に融合させる。
さらに,多種多様性の影響を区別するために,LIRDRec内にプログレッシブ・ウェイト・コピー・フュージョン・モジュールを考案した。
このモジュールは、最終ユーザまたはアイテム表現を合成する際に、各モダリティに割り当てられた重みを漸進的に学習する。
最後に,Multimodal Large Language Models (MLLM) の強力な視覚的理解を利用して,項目画像をテキストに変換し,LLMを通じてテキストに埋め込まれたセマンティックスを抽出する。
5つの実世界のデータセットで実施した実証的な評価は、競合するベースラインと比較して、我々のアプローチの優位性を検証する。
MLLMやLCMから抽出した埋め込みを組み込んだモデルでは,NDCG@20の推奨精度を,従来の埋め込みよりも平均4.21%向上させることができる。
関連論文リスト
- Do Recommender Systems Really Leverage Multimodal Content? A Comprehensive Analysis on Multimodal Representations for Recommendation [9.37169920239321]
マルチモーダル・レコメンダ・システムは異種コンテンツの統合によるレコメンデーションの精度向上を目的としている。
効果はあるものの、それらの利得が真のマルチモーダル理解によるものなのか、あるいはモデルの複雑さの増加によるものなのかは定かではない。
本研究は,マルチモーダルな項目埋め込みの役割を考察し,表現の意味的情報性を強調した。
論文 参考訳(メタデータ) (2025-08-06T15:53:58Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation [4.518104756199573]
Molarは、複数のコンテンツモダリティとID情報を統合するシーケンシャルなレコメンデーションフレームワークで、協調的な信号を効果的にキャプチャする。
マルチモーダルコンテンツと協調フィルタリングの洞察をシームレスに組み合わせることで、Molarはユーザの関心事とコンテキスト意味論の両方をキャプチャし、より優れた推奨精度をもたらす。
論文 参考訳(メタデータ) (2024-12-24T05:23:13Z) - Triple Modality Fusion: Aligning Visual, Textual, and Graph Data with Large Language Models for Multi-Behavior Recommendations [13.878297630442674]
本稿では,三重モダリティの融合を活かした,多行動レコメンデーションのための新しいフレームワークを提案する。
提案モデルであるTriple Modality Fusion (TMF)は,大規模言語モデル(LLM)のパワーを利用して,これらの3つのモダリティを調整・統合する。
大規模な実験により,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2024-10-16T04:44:15Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - MM-GEF: Multi-modal representation meet collaborative filtering [43.88159639990081]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z) - Mining Latent Structures for Multimedia Recommendation [46.70109406399858]
本稿では,マルチモーダル再圧縮のためのLATent sTructureマイニング手法を提案する。
各モダリティの項目構造を学び、複数のモダリティを集約して潜在アイテムグラフを得る。
学習した潜在グラフに基づいてグラフ畳み込みを行い、アイテム表現に高次項目親和性を明示的に注入する。
論文 参考訳(メタデータ) (2021-04-19T03:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。