論文の概要: Gated Multimodal Graph Learning for Personalized Recommendation
- arxiv url: http://arxiv.org/abs/2506.00107v1
- Date: Fri, 30 May 2025 16:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.295464
- Title: Gated Multimodal Graph Learning for Personalized Recommendation
- Title(参考訳): Gated Multimodal Graph Learning for Personalized Recommendation
- Authors: Sibei Liu, Yuanzhe Zhang, Xiang Li, Yunbo Liu, Chengwei Feng, Hao Yang,
- Abstract要約: マルチモーダルレコメンデーションは、協調フィルタリングにおけるコールドスタートとスパーシリティの問題を軽減するための有望なソリューションとして登場した。
グラフベースユーザモデリングと適応型マルチモーダルアイテムエンコーディングを組み合わせた軽量かつモジュール化されたレコメンデーションフレームワーク RLMultimodalRec を提案する。
- 参考スコア(独自算出の注目度): 9.466822984141086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal recommendation has emerged as a promising solution to alleviate the cold-start and sparsity problems in collaborative filtering by incorporating rich content information, such as product images and textual descriptions. However, effectively integrating heterogeneous modalities into a unified recommendation framework remains a challenge. Existing approaches often rely on fixed fusion strategies or complex architectures , which may fail to adapt to modality quality variance or introduce unnecessary computational overhead. In this work, we propose RLMultimodalRec, a lightweight and modular recommendation framework that combines graph-based user modeling with adaptive multimodal item encoding. The model employs a gated fusion module to dynamically balance the contribution of visual and textual modalities, enabling fine-grained and content-aware item representations. Meanwhile, a two-layer LightGCN encoder captures high-order collaborative signals by propagating embeddings over the user-item interaction graph without relying on nonlinear transformations. We evaluate our model on a real-world dataset from the Amazon product domain. Experimental results demonstrate that RLMultimodalRec consistently outperforms several competitive baselines, including collaborative filtering, visual-aware, and multimodal GNN-based methods. The proposed approach achieves significant improvements in top-K recommendation metrics while maintaining scalability and interpretability, making it suitable for practical deployment.
- Abstract(参考訳): 商品画像やテキスト記述などのリッチコンテンツ情報を組み込むことにより、協調フィルタリングにおけるコールドスタートとスパーシリティの問題を軽減するための、有望なソリューションとしてマルチモーダルレコメンデーションが登場した。
しかし、ヘテロジニアスなモダリティを統一されたレコメンデーションフレームワークに効果的に統合することは依然として課題である。
既存のアプローチは、しばしば固定融合戦略や複雑なアーキテクチャに依存し、モダリティの品質のばらつきに適応できなかったり、不要な計算オーバーヘッドを発生させたりしている。
本研究では,グラフベースユーザモデリングと適応型マルチモーダルアイテムエンコーディングを組み合わせた軽量かつモジュール化されたレコメンデーションフレームワーク RLMultimodalRec を提案する。
このモデルはゲート融合モジュールを使用し、視覚的およびテキスト的モダリティの寄与を動的にバランスさせ、細粒度でコンテンツ対応のアイテム表現を可能にする。
一方、二層LightGCNエンコーダは、非線形変換に頼ることなく、ユーザ-itemインタラクショングラフ上に埋め込みを伝播することにより、高次協調信号をキャプチャする。
当社のモデルを,Amazon製品ドメインから実世界のデータセットで評価する。
RLMultimodalRecは、協調フィルタリング、視覚認識、マルチモーダルGNNベースの手法など、競争力のあるベースラインを一貫して上回ることを示した。
提案手法は,スケーラビリティと解釈可能性を維持しつつ,トップKレコメンデーションメトリクスの大幅な改善を実現し,実用化に適している。
関連論文リスト
- Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。
異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。
実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文 参考訳(メタデータ) (2025-03-09T05:06:47Z) - Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation [4.518104756199573]
Molarは、複数のコンテンツモダリティとID情報を統合するシーケンシャルなレコメンデーションフレームワークで、協調的な信号を効果的にキャプチャする。
マルチモーダルコンテンツと協調フィルタリングの洞察をシームレスに組み合わせることで、Molarはユーザの関心事とコンテキスト意味論の両方をキャプチャし、より優れた推奨精度をもたらす。
論文 参考訳(メタデータ) (2024-12-24T05:23:13Z) - A Unified Graph Transformer for Overcoming Isolations in Multi-modal Recommendation [9.720586396359906]
既存のマルチモーダルレコメンダシステムは、通常、特徴抽出とモダリティモデリングの両方に分離されたプロセスを使用する。
本稿では, マルチウェイ変換器を用いて, 整列したマルチモーダル特徴を抽出するUnified Multi-modal Graph Transformer (UGT) という新しいモデルを提案する。
UGTモデルは, 一般的に使用されるマルチモーダルレコメンデーション損失と共同最適化した場合に, 特に有意な有効性が得られることを示す。
論文 参考訳(メタデータ) (2024-07-29T11:04:31Z) - DiffMM: Multi-Modal Diffusion Model for Recommendation [19.43775593283657]
DiffMMと呼ばれる新しいマルチモーダルグラフ拡散モデルを提案する。
本フレームワークは,モダリティを意識したグラフ拡散モデルとクロスモーダルコントラスト学習パラダイムを統合し,モダリティを意識したユーザ表現学習を改善する。
論文 参考訳(メタデータ) (2024-06-17T17:35:54Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Mirror Gradient: Towards Robust Multimodal Recommender Systems via
Exploring Flat Local Minima [54.06000767038741]
フラットローカルミニマの新しい視点からマルチモーダルリコメンデータシステムの解析を行う。
我々はミラーグラディエント(MG)と呼ばれる簡潔で効果的な勾配戦略を提案する。
提案したMGは、既存の堅牢なトレーニング手法を補完し、多様な高度なレコメンデーションモデルに容易に拡張できることが判明した。
論文 参考訳(メタデータ) (2024-02-17T12:27:30Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。