論文の概要: CAMPA: Efficient and Aligned Multimodal Graph Learning via Decoupled Propagation and Aggregation
- arxiv url: http://arxiv.org/abs/2605.11468v1
- Date: Tue, 12 May 2026 03:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.549194
- Title: CAMPA: Efficient and Aligned Multimodal Graph Learning via Decoupled Propagation and Aggregation
- Title(参考訳): CAMPA: 分離された伝播と凝集による効率的な多モードグラフ学習
- Authors: Daohan Su, Hao Liu, Xunkai Li, Yinlin Zhu, Xiong Yongfu, Yi Liu, Hongchao Qin, Rong-Hua Li, Guoren Wang,
- Abstract要約: マルチモーダルグラフニューラルネットワーク(MGNN)は、マルチモーダル属性グラフから学習する強力な可能性を示している。
既存のアプローチのほとんどは、計算オーバーヘッドの禁止に苦しむ密結合アーキテクチャに依存している。
本稿では,大規模なグラフ学習において,疎結合なMGNNの方がはるかに効率的かつスケーラブルであることを示す。
- 参考スコア(独自算出の注目度): 37.04773834936237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Graph Neural Networks (MGNNs) have shown strong potential for learning from multimodal attributed graphs, yet most existing approaches rely on tightly coupled architectures that suffer from prohibitive computational overhead. In this paper, we present a systematic empirical analysis showing that decoupled MGNNs are substantially more efficient and scalable for large-scale graph learning. However, we identify a critical bottleneck in existing decoupled pipelines, namely modal conflict, which arises in both the propagation and aggregation stages. Specifically, independent multi-hop diffusion causes cross-modal semantic divergence during propagation, while naive fusion fails to align multi-hop feature trajectories during aggregation, jointly limiting effective representation learning. To address this challenge, we propose CAMPA, a Cross-modal Aligned Multimodal Propagation & Aggregation framework for decoupled multimodal graph learning. Concretely, CAMPA introduces a two-stage alignment mechanism: (1) cross-modal aligned propagation, which injects cross-modal similarity priors into message passing to preserve semantic consistency without additional parameter overhead; (2) trajectory aligned aggregation, which leverages trajectory-level self-attention and cross-attention to capture and align long-range dependencies across modalities and hops. Extensive experiments on diverse benchmark datasets and tasks demonstrate that CAMPA consistently outperforms strong coupled and decoupled baselines while preserving the efficiency advantages of the decoupled paradigm.
- Abstract(参考訳): マルチモーダルグラフニューラルネットワーク(MGNN)は、マルチモーダル属性グラフから学習する強力な可能性を示しているが、既存のほとんどのアプローチは、計算オーバーヘッドの禁止に苦しむ密結合アーキテクチャに依存している。
本稿では,解離したMGNNが大規模グラフ学習において,より効率的かつスケーラブルであることを示す,系統的な実証分析を行った。
しかし、既存の疎結合パイプライン、すなわち、伝播と凝集の段階の両方で発生するモーダルコンフリクトにおいて、重要なボトルネックが特定される。
具体的には、独立なマルチホップ拡散は伝播中に相互意味のばらつきを引き起こすが、ナイーブ融合はアグリゲーション中に多重ホップ特徴軌跡の整列に失敗し、効果的な表現学習を共同で制限する。
この課題に対処するため、我々はCAMPA(Cross-modal Aligned Multimodal Propagation & Aggregation framework for decoupled multimodal graph learning)を提案する。
具体的には、CAMPAは、2段階のアライメント機構を導入している: 1) クロスモーダルなアライメント(cross-modal aligned propagation)、(1) クロスモーダルな類似性(cross-modal similarity)をメッセージパッシングに注入し、追加のパラメータのオーバーヘッドなしにセマンティックな一貫性を維持すること、(2) トラジェクティブなアライメント(trajectory aligned aggregate)、(2) トラジェクティブレベルの自己アライメント(trajectory-level self-attention)とクロスアライメント(cross-attention)を利用して、モダリティやホップ間の長距離依存関係をキャプチャし、アライメントする。
多様なベンチマークデータセットとタスクに関する大規模な実験により、CAMPAは、分離されたパラダイムの効率性を保ちながら、強い結合と分離されたベースラインを一貫して上回ることを示した。
関連論文リスト
- PivotMerge: Bridging Heterogeneous Multimodal Pre-training via Post-Alignment Model Merging [80.17966517536102]
マルチモーダル大規模言語モデルの事前学習の核心は、効果的なクロスモーダルアライメントの確立にあると論じる。
この知見に触発されて,マルチモーダル事前学習から学んだクロスモーダルアライメント機能を統合することを目的とした,アライメント後のマージタスクを導入する。
クロスモーダルプロジェクタのためのアライメント後マージフレームワークであるPivotMergeを提案する。
論文 参考訳(メタデータ) (2026-04-18T09:38:03Z) - Multimodal Graph Representation Learning with Dynamic Information Pathways [12.019248723233673]
動的情報経路(DiP)を用いた新しいマルチモーダルグラフ表現学習フレームワークを提案する。
DiPは近接誘導擬似ノード相互作用による各モード内の動的メッセージルーティングを可能にする。
複数のベンチマークの実験では、DiPがベースラインを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2026-03-10T06:45:59Z) - Toward Effective Multimodal Graph Foundation Model: A Divide-and-Conquer Based Approach [42.970648490410504]
MGFM(Multimodal Graph Foundation Models)は、Multimodal-Attributed Graphs(MAG)におけるリッチなマルチモーダル情報の活用を可能にする。
本稿では,異なる粒度にまたがるモダリティの相互作用とアライメントを分離するために,Divide-and-Conquer戦略を用いた新しいフレームワークPLANETを提案する。
PLANETは,様々なグラフ中心およびマルチモーダル生成タスクにおいて,最先端のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-02-04T01:05:12Z) - Cross-Modal Attention Network with Dual Graph Learning in Multimodal Recommendation [12.802844514133255]
二重グラフ埋め込み(CRANE)を用いたクロスモーダル再帰注意ネットワーク
我々は,共同潜在空間における相互相関に基づくモダリティ特徴を反復的に洗練するコア再帰的クロスモーダルアテンション(RCA)機構を設計する。
対称型マルチモーダル学習では,対話した項目の特徴を集約することで,ユーザのマルチモーダルプロファイルを明示的に構築する。
論文 参考訳(メタデータ) (2026-01-16T10:09:39Z) - Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process [55.91649771370862]
ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。
本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T16:53:24Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - GeoMM: On Geodesic Perspective for Multi-modal Learning [55.41612200877861]
本稿では,マルチモーダル学習における測地線距離を新しい距離測定基準として導入する。
我々のアプローチは、現在のマルチモーダル学習に測地距離を適用するための包括的な戦略を取り入れている。
論文 参考訳(メタデータ) (2025-05-16T13:12:41Z) - Fast Disentangled Slim Tensor Learning for Multi-view Clustering [28.950845031752927]
本稿では,マルチビュークラスタリングのための高速離散スリム学習法(DSTL)を提案する。
頑健なPCAにインスパイアされた特徴冗長性の負の影響を軽減するため、DSTLは、潜在する低次元表現を、各ビューに対する意味的非関連部分と意味的関連部分に分解する。
提案手法は計算効率が高く,効果的に解ける。
論文 参考訳(メタデータ) (2024-11-12T09:57:53Z) - Joint Demand Prediction for Multimodal Systems: A Multi-task
Multi-relational Spatiotemporal Graph Neural Network Approach [7.481812882780837]
本研究では,マルチモーダル需要予測のためのマルチリレーショナルグラフニューラルネットワーク(MRGNN)を提案する。
マルチリレーショナルグラフニューラルネットワーク(MRGNN)を導入し,異種空間依存性を捉える。
実験はニューヨーク市の実際のデータセットを用いて行われる。
論文 参考訳(メタデータ) (2021-12-15T12:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。