論文の概要: RecGOAT: Graph Optimal Adaptive Transport for LLM-Enhanced Multimodal Recommendation with Dual Semantic Alignment
- arxiv url: http://arxiv.org/abs/2602.00682v1
- Date: Sat, 31 Jan 2026 11:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.334476
- Title: RecGOAT: Graph Optimal Adaptive Transport for LLM-Enhanced Multimodal Recommendation with Dual Semantic Alignment
- Title(参考訳): RecGOAT:デュアルセマンティックアライメントを用いたLLM強化マルチモーダルレコメンデーションのためのグラフ最適適応トランスポート
- Authors: Yuecheng Li, Hengwei Ju, Zeyu Song, Wei Yang, Chi Lu, Peng Jiang, Kun Gai,
- Abstract要約: マルチモーダルなレコメンデーションのための新しい2つのセマンティックアライメントフレームワークRecGOATを提案する。
RecGOATは、我々の理論的洞察を実証的に検証し、最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 23.738860191046538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal recommendation systems typically integrates user behavior with multimodal data from items, thereby capturing more accurate user preferences. Concurrently, with the rise of large models (LMs), multimodal recommendation is increasingly leveraging their strengths in semantic understanding and contextual reasoning. However, LM representations are inherently optimized for general semantic tasks, while recommendation models rely heavily on sparse user/item unique identity (ID) features. Existing works overlook the fundamental representational divergence between large models and recommendation systems, resulting in incompatible multimodal representations and suboptimal recommendation performance. To bridge this gap, we propose RecGOAT, a novel yet simple dual semantic alignment framework for LLM-enhanced multimodal recommendation, which offers theoretically guaranteed alignment capability. RecGOAT first employs graph attention networks to enrich collaborative semantics by modeling item-item, user-item, and user-user relationships, leveraging user/item LM representations and interaction history. Furthermore, we design a dual-granularity progressive multimodality-ID alignment framework, which achieves instance-level and distribution-level semantic alignment via cross-modal contrastive learning (CMCL) and optimal adaptive transport (OAT), respectively. Theoretically, we demonstrate that the unified representations derived from our alignment framework exhibit superior semantic consistency and comprehensiveness. Extensive experiments on three public benchmarks show that our RecGOAT achieves state-of-the-art performance, empirically validating our theoretical insights. Additionally, the deployment on a large-scale online advertising platform confirms the model's effectiveness and scalability in industrial recommendation scenarios. Code available at https://github.com/6lyc/RecGOAT-LLM4Rec.
- Abstract(参考訳): マルチモーダルレコメンデーションシステムは、通常、アイテムからのマルチモーダルデータとユーザの振る舞いを統合し、より正確なユーザの好みをキャプチャする。
同時に、大規模モデル(LM)の台頭とともに、多モーダルレコメンデーションは、意味的理解と文脈的推論において、その強みをますます活用している。
しかし、LM表現は本来、一般的なセマンティックなタスクに最適化されているのに対し、レコメンデーションモデルはスパースなユーザ/イテム固有のID(ID)機能に大きく依存している。
既存の作業は、大きなモデルとレコメンデーションシステムの基本的な表現の相違を見落とし、不整合なマルチモーダル表現と準最適レコメンデーション性能をもたらす。
このギャップを埋めるために、理論的に保証されたアライメント機能を提供するLLM強化マルチモーダルレコメンデーションのための、新しい単純な2つのセマンティックアライメントフレームワークであるRecGOATを提案する。
RecGOATは、まず、アイテム・イテム、ユーザ・イテム、ユーザ・ユーザ関係をモデリングし、ユーザ/イテムLM表現とインタラクション履歴を活用することで、協調的なセマンティクスを豊かにするために、グラフアテンションネットワークを利用する。
さらに, クロスモーダルコントラスト学習 (CMCL) と最適適応輸送 (OAT) を用いて, インスタンスレベルと分布レベルのセマンティックアライメントを実現する, 二重粒度プログレッシブマルチモーダルIDアライメントフレームワークを設計する。
理論的には、アライメントフレームワークから派生した統一表現は、より優れたセマンティック一貫性と包括性を示す。
3つの公開ベンチマークに関する大規模な実験は、RecGOATが最先端のパフォーマンスを達成し、理論的洞察を実証的に検証していることを示している。
さらに、大規模オンライン広告プラットフォームへの展開は、産業レコメンデーションシナリオにおけるモデルの有効性とスケーラビリティを確認する。
コードはhttps://github.com/6lyc/RecGOAT-LLM4Recで公開されている。
関連論文リスト
- Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文 参考訳(メタデータ) (2025-11-24T04:10:46Z) - Do Recommender Systems Really Leverage Multimodal Content? A Comprehensive Analysis on Multimodal Representations for Recommendation [9.37169920239321]
マルチモーダル・レコメンダ・システムは異種コンテンツの統合によるレコメンデーションの精度向上を目的としている。
効果はあるものの、それらの利得が真のマルチモーダル理解によるものなのか、あるいはモデルの複雑さの増加によるものなのかは定かではない。
本研究は,マルチモーダルな項目埋め込みの役割を考察し,表現の意味的情報性を強調した。
論文 参考訳(メタデータ) (2025-08-06T15:53:58Z) - Gated Multimodal Graph Learning for Personalized Recommendation [9.466822984141086]
マルチモーダルレコメンデーションは、協調フィルタリングにおけるコールドスタートとスパーシリティの問題を軽減するための有望なソリューションとして登場した。
グラフベースユーザモデリングと適応型マルチモーダルアイテムエンコーディングを組み合わせた軽量かつモジュール化されたレコメンデーションフレームワーク RLMultimodalRec を提案する。
論文 参考訳(メタデータ) (2025-05-30T16:57:17Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - DaRec: A Disentangled Alignment Framework for Large Language Model and Recommender System [83.34921966305804]
大規模言語モデル (LLM) はレコメンデーションシステムにおいて顕著な性能を示した。
LLMと協調モデルのための新しいプラグ・アンド・プレイアライメントフレームワークを提案する。
我々の手法は既存の最先端アルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2024-08-15T15:56:23Z) - A Unified Graph Transformer for Overcoming Isolations in Multi-modal Recommendation [9.720586396359906]
既存のマルチモーダルレコメンダシステムは、通常、特徴抽出とモダリティモデリングの両方に分離されたプロセスを使用する。
本稿では, マルチウェイ変換器を用いて, 整列したマルチモーダル特徴を抽出するUnified Multi-modal Graph Transformer (UGT) という新しいモデルを提案する。
UGTモデルは, 一般的に使用されるマルチモーダルレコメンデーション損失と共同最適化した場合に, 特に有意な有効性が得られることを示す。
論文 参考訳(メタデータ) (2024-07-29T11:04:31Z) - Towards Bridging the Cross-modal Semantic Gap for Multi-modal Recommendation [12.306686291299146]
マルチモーダルレコメンデーションはレコメンデーションシステムの性能を大幅に向上させる。
既存のマルチモーダルレコメンデーションモデルは、マルチメディア情報伝搬プロセスを利用してアイテム表現を豊かにする。
本稿では,モダリティ間のセマンティックギャップをブリッジし,詳細な多視点セマンティック情報を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T15:56:03Z) - MISSRec: Pre-training and Transferring Multi-modal Interest-aware
Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。
ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。
候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文 参考訳(メタデータ) (2023-08-22T04:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。