論文の概要: COHESION: Composite Graph Convolutional Network with Dual-Stage Fusion for Multimodal Recommendation
- arxiv url: http://arxiv.org/abs/2504.04452v1
- Date: Sun, 06 Apr 2025 11:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:08:36.716445
- Title: COHESION: Composite Graph Convolutional Network with Dual-Stage Fusion for Multimodal Recommendation
- Title(参考訳): COHESION:マルチモーダルレコメンデーションのためのデュアルステージ融合を用いた複合グラフ畳み込みネットワーク
- Authors: Jinfeng Xu, Zheyu Chen, Wei Wang, Xiping Hu, Sang-Wook Kim, Edith C. H. Ngai,
- Abstract要約: マルチモーダルレコメンデーションにおける2つの重要なプロセスは、モダリティ融合と表現学習である。
我々はCOHESIONと呼ばれるマルチモーダルレコメンデーションのための2段融合を用いたCOmposite grapH畳み込みnEtworkを紹介する。
- 参考スコア(独自算出の注目度): 26.169114011402232
- License:
- Abstract: Recent works in multimodal recommendations, which leverage diverse modal information to address data sparsity and enhance recommendation accuracy, have garnered considerable interest. Two key processes in multimodal recommendations are modality fusion and representation learning. Previous approaches in modality fusion often employ simplistic attentive or pre-defined strategies at early or late stages, failing to effectively handle irrelevant information among modalities. In representation learning, prior research has constructed heterogeneous and homogeneous graph structures encapsulating user-item, user-user, and item-item relationships to better capture user interests and item profiles. Modality fusion and representation learning were considered as two independent processes in previous work. In this paper, we reveal that these two processes are complementary and can support each other. Specifically, powerful representation learning enhances modality fusion, while effective fusion improves representation quality. Stemming from these two processes, we introduce a COmposite grapH convolutional nEtwork with dual-stage fuSION for the multimodal recommendation, named COHESION. Specifically, it introduces a dual-stage fusion strategy to reduce the impact of irrelevant information, refining all modalities using ID embedding in the early stage and fusing their representations at the late stage. It also proposes a composite graph convolutional network that utilizes user-item, user-user, and item-item graphs to extract heterogeneous and homogeneous latent relationships within users and items. Besides, it introduces a novel adaptive optimization to ensure balanced and reasonable representations across modalities. Extensive experiments on three widely used datasets demonstrate the significant superiority of COHESION over various competitive baselines.
- Abstract(参考訳): マルチモーダルレコメンデーションにおける最近の研究は、多種多様なモーダル情報を活用してデータの疎性に対処し、レコメンデーションの精度を高めることで、かなりの関心を集めている。
マルチモーダルレコメンデーションにおける2つの重要なプロセスは、モダリティ融合と表現学習である。
モダリティ融合における以前のアプローチは、しばしば、初期または後期に単純化された注意または事前定義された戦略を採用しており、モダリティ間の無関係な情報を効果的に扱えない。
表現学習では,ユーザ・イテム,ユーザ・ユーザ・アイテム・イテム関係をカプセル化した異種・同質なグラフ構造を構築し,ユーザの興味や項目プロファイルをよりよく捉えている。
モダリティ融合と表現学習は、以前の研究において2つの独立したプロセスとみなされた。
本稿では,これら2つのプロセスが相補的であり,相互にサポートできることを明らかにする。
具体的には、強力な表現学習はモダリティ融合を促進し、効果的な融合は表現品質を向上させる。
これら2つのプロセスから,COHESIONというマルチモーダルレコメンデーションのための二段融合を用いたCOmposite grapH畳み込みnEtworkを導入する。
具体的には、無関係な情報の影響を減らし、初期においてID埋め込みを用いて全てのモダリティを精錬し、後期においてそれらの表現を融合させる2段階融合戦略を導入する。
また,ユーザ・テム,ユーザ・ユーザ・アイテム・テムグラフを用いた複合グラフ畳み込みネットワークを提案し,ユーザ・アイテム内での不均一・均一な潜伏関係を抽出する。
さらに、モダリティ間のバランスよく合理的な表現を確保するために、新しい適応最適化を導入する。
広く使われている3つのデータセットに対する大規模な実験は、様々な競争基盤線よりもCOHESIONの顕著な優位性を示している。
関連論文リスト
- Rethinking Normalization Strategies and Convolutional Kernels for Multimodal Image Fusion [25.140475569677758]
マルチモーダル画像融合は、様々なモーダルからの情報を総合的な画像を得るために統合することを目的としている。
既存の手法では、自然画像の融合を優先し、情報補完とネットワークトレーニング戦略に重点を置く傾向にある。
本稿では,融合目標,統計特性,およびデータ分布に関する2つの課題の有意な差異を論じる。
論文 参考訳(メタデータ) (2024-11-15T08:36:24Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - BiVRec: Bidirectional View-based Multimodal Sequential Recommendation [55.87443627659778]
我々は,IDとマルチモーダルの両方で推薦タスクを共同で訓練する,革新的なフレームワークであるBivRecを提案する。
BivRecは5つのデータセットで最先端のパフォーマンスを達成し、様々な実用的な利点を示している。
論文 参考訳(メタデータ) (2024-02-27T09:10:41Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - RGBT Tracking via Progressive Fusion Transformer with Dynamically Guided
Learning [37.067605349559]
本稿ではProFormerと呼ばれる新しいプログレッシブフュージョントランスを提案する。
単一のモダリティ情報をマルチモーダル表現に統合し、堅牢なRGBT追跡を行う。
ProFormerは、RGBT210、RGBT234、LasHeR、VTUAVデータセットに新しい最先端パフォーマンスを設定する。
論文 参考訳(メタデータ) (2023-03-26T16:55:58Z) - Light Field Saliency Detection with Dual Local Graph Learning
andReciprocative Guidance [148.9832328803202]
我々は、グラフネットワークを介して焦点スタック内のインフォメーション融合をモデル化する。
我々は、全焦点パタンを用いて焦点スタック融合過程をガイドする新しいデュアルグラフモデルを構築した。
論文 参考訳(メタデータ) (2021-10-02T00:54:39Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。