論文の概要: Cross-Modal Attention Network with Dual Graph Learning in Multimodal Recommendation
- arxiv url: http://arxiv.org/abs/2601.11151v1
- Date: Fri, 16 Jan 2026 10:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.443949
- Title: Cross-Modal Attention Network with Dual Graph Learning in Multimodal Recommendation
- Title(参考訳): マルチモーダルレコメンデーションにおけるデュアルグラフ学習を用いたクロスモーダルアテンションネットワーク
- Authors: Ji Dai, Quan Fang, Jun Hu, Desheng Cai, Yang Yang, Can Zhao,
- Abstract要約: 二重グラフ埋め込み(CRANE)を用いたクロスモーダル再帰注意ネットワーク
我々は,共同潜在空間における相互相関に基づくモダリティ特徴を反復的に洗練するコア再帰的クロスモーダルアテンション(RCA)機構を設計する。
対称型マルチモーダル学習では,対話した項目の特徴を集約することで,ユーザのマルチモーダルプロファイルを明示的に構築する。
- 参考スコア(独自算出の注目度): 12.802844514133255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimedia recommendation systems leverage user-item interactions and multimodal information to capture user preferences, enabling more accurate and personalized recommendations. Despite notable advancements, existing approaches still face two critical limitations: first, shallow modality fusion often relies on simple concatenation, failing to exploit rich synergic intra- and inter-modal relationships; second, asymmetric feature treatment-where users are only characterized by interaction IDs while items benefit from rich multimodal content-hinders the learning of a shared semantic space. To address these issues, we propose a Cross-modal Recursive Attention Network with dual graph Embedding (CRANE). To tackle shallow fusion, we design a core Recursive Cross-Modal Attention (RCA) mechanism that iteratively refines modality features based on cross-correlations in a joint latent space, effectively capturing high-order intra- and inter-modal dependencies. For symmetric multimodal learning, we explicitly construct users' multimodal profiles by aggregating features of their interacted items. Furthermore, CRANE integrates a symmetric dual-graph framework-comprising a heterogeneous user-item interaction graph and a homogeneous item-item semantic graph-unified by a self-supervised contrastive learning objective to fuse behavioral and semantic signals. Despite these complex modeling capabilities, CRANE maintains high computational efficiency. Theoretical and empirical analyses confirm its scalability and high practical efficiency, achieving faster convergence on small datasets and superior performance ceilings on large-scale ones. Comprehensive experiments on four public real-world datasets validate an average 5% improvement in key metrics over state-of-the-art baselines.
- Abstract(参考訳): マルチメディアレコメンデーションシステムは、ユーザの好みを捉え、より正確でパーソナライズされたレコメンデーションを可能にする。
第1に、浅いモダリティ融合は、単純な結合に依存し、リッチなシナジー的内的およびモダル間関係を利用できないこと、第2に、非対称な特徴処理では、ユーザーは相互作用IDによってのみ特徴付けられること、第2に、リッチなマルチモーダルコンテンツから恩恵を受けることは、共有セマンティック空間の学習を妨げている。
これらの問題に対処するため,デュアルグラフ埋め込み (CRANE) を用いたクロスモーダル再帰注意ネットワークを提案する。
浅層核融合に対処するため, 連続潜伏空間における相互相関に基づくモダリティ特徴を反復的に洗練し, 高次イントラ・インターモーダル依存性を効果的に捕捉するRCA(Recursive Cross-Modal Attention)機構を設計した。
対称型マルチモーダル学習では,対話した項目の特徴を集約することで,ユーザのマルチモーダルプロファイルを明示的に構築する。
さらに、CRANEは、不均質なユーザ・イテム相互作用グラフを構成する対称二重グラフフレームワークと、自己教師付きコントラスト学習目的によって統一された同質なアイテム・イテムセマンティックグラフを統合し、行動や意味的な信号を融合する。
これらの複雑なモデリング機能にもかかわらず、CRANEは高い計算効率を維持している。
理論的および実証的な分析は、そのスケーラビリティと高い実用効率を確認し、小さなデータセットへのより高速な収束と大規模データセットに対する優れた性能天井を実現する。
4つのパブリックな実世界のデータセットに関する総合的な実験は、最先端のベースラインよりも平均5%改善されている。
関連論文リスト
- Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process [55.91649771370862]
ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。
本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T16:53:24Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。
既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。
本稿では,Co-AttenDWGを提案する。
我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - COHESION: Composite Graph Convolutional Network with Dual-Stage Fusion for Multimodal Recommendation [26.169114011402232]
マルチモーダルレコメンデーションにおける2つの重要なプロセスは、モダリティ融合と表現学習である。
我々はCOHESIONと呼ばれるマルチモーダルレコメンデーションのための2段融合を用いたCOmposite grapH畳み込みnEtworkを紹介する。
論文 参考訳(メタデータ) (2025-04-06T11:42:49Z) - BiVRec: Bidirectional View-based Multimodal Sequential Recommendation [55.87443627659778]
我々は,IDとマルチモーダルの両方で推薦タスクを共同で訓練する,革新的なフレームワークであるBivRecを提案する。
BivRecは5つのデータセットで最先端のパフォーマンスを達成し、様々な実用的な利点を示している。
論文 参考訳(メタデータ) (2024-02-27T09:10:41Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。