論文の概要: Toward Effective Multimodal Graph Foundation Model: A Divide-and-Conquer Based Approach
- arxiv url: http://arxiv.org/abs/2602.04116v1
- Date: Wed, 04 Feb 2026 01:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.330786
- Title: Toward Effective Multimodal Graph Foundation Model: A Divide-and-Conquer Based Approach
- Title(参考訳): 効果的なマルチモーダルグラフ基礎モデルへのアプローチ
- Authors: Sicheng Liu, Xunkai Li, Daohan Su, Ru Zhang, Hongchao Qin, Ronghua Li, Guoren Wang,
- Abstract要約: MGFM(Multimodal Graph Foundation Models)は、Multimodal-Attributed Graphs(MAG)におけるリッチなマルチモーダル情報の活用を可能にする。
本稿では,異なる粒度にまたがるモダリティの相互作用とアライメントを分離するために,Divide-and-Conquer戦略を用いた新しいフレームワークPLANETを提案する。
PLANETは,様々なグラフ中心およびマルチモーダル生成タスクにおいて,最先端のベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 42.970648490410504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph Foundation Models (GFMs) have achieved remarkable success in generalizing across diverse domains. However, they mainly focus on Text-Attributed Graphs (TAGs), leaving Multimodal-Attributed Graphs (MAGs) largely untapped. Developing Multimodal Graph Foundation Models (MGFMs) allows for leveraging the rich multimodal information in MAGs, and extends applicability to broader types of downstream tasks. While recent MGFMs integrate diverse modality information, our empirical investigation reveals two fundamental limitations of existing MGFMs: (1)they fail to explicitly model modality interaction, essential for capturing intricate cross-modal semantics beyond simple aggregation, and (2)they exhibit sub-optimal modality alignment, which is critical for bridging the significant semantic disparity between distinct modal spaces. To address these challenges, we propose PLANET (graPh topoLogy-aware modAlity iNteraction and alignmEnT), a novel framework employing a Divide-and-Conquer strategy to decouple modality interaction and alignment across distinct granularities. At the embedding granularity, (1)Embedding-wise Domain Gating (EDG) performs local semantic enrichment by adaptively infusing topology-aware cross-modal context, achieving modality interaction. At the node granularity, (2)Node-wise Discretization Retrieval (NDR) ensures global modality alignment by constructing a Discretized Semantic Representation Space (DSRS) to bridge modality gaps. Extensive experiments demonstrate that PLANET significantly outperforms state-of-the-art baselines across diverse graph-centric and multimodal generative tasks.
- Abstract(参考訳): Graph Foundation Models (GFMs) は、様々な領域にまたがる一般化において大きな成功を収めた。
しかし、主にテキスト分散グラフ(TAGs)に焦点を当てており、Multimodal-Attributed Graphs(MAGs)は未使用のままである。
MGFM(Multimodal Graph Foundation Models)の開発により、MAGのリッチなマルチモーダル情報を活用することができ、より広範なダウンストリームタスクに適用性を高めることができる。
最近のMGFMは多種多様なモダリティ情報を統合しているが、実験的な調査では既存のMGFMの2つの基本的な限界が明らかになっている。(1)単純な集合を超えて複雑なモダリティ間意味論を捉えるのに不可欠なモダリティ相互作用を明示的にモデル化するのに失敗し、(2)異なるモダリティ空間間の重要な意味的相違をブリッジするのに重要な準最適モダリティアライメントを示す。
これらの課題に対処するため,多角性相互作用とアライメントを分離するDivide-and-Conquer戦略を用いた新しいフレームワークであるPLANET(graPh topoLogy-aware modAlity iNteraction andalignedmEnT)を提案する。
埋め込み粒度において,(1)埋め込みワイドドメインゲーティング(EDG)はトポロジ対応のクロスモーダルコンテキストを適応的に注入して局所的セマンティックエンリッチメントを行い,モダリティ相互作用を実現する。
ノードの粒度において、(2)ノード単位の離散化検索(NDR)は、モダリティギャップをブリッジするために離散化された意味表現空間(DSRS)を構築することにより、大域的なモダリティアライメントを確保する。
広範な実験により、PLANETは様々なグラフ中心およびマルチモーダル生成タスクで最先端のベースラインを大幅に上回っていることが示された。
関連論文リスト
- Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。
本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文 参考訳(メタデータ) (2026-02-04T12:12:49Z) - M2I2HA: Multi-modal Object Detection Based on Intra- and Inter-Modal Hypergraph Attention [5.485819352754784]
本稿では,M2I2HAと呼ばれるハイパーグラフ理論に基づくマルチモーダル知覚ネットワークを提案する。
我々のアーキテクチャにはハイパーグラフ内拡張モジュールが含まれており、各モダリティ内の大域的な多対多の高次関係をキャプチャする。
Inter-Hypergraph Fusionモジュールは、データソース間のコンフィグレーションと空間ギャップをブリッジすることで、クロスモーダル機能を調整、拡張、フューズする。
論文 参考訳(メタデータ) (2026-01-21T08:55:07Z) - A Modality-Tailored Graph Modeling Framework for Urban Region Representation via Contrastive Learning [22.865789467134544]
都市域表現のためのモダリティ調整グラフモデリングフレームワークMTGRRを提案する。
集約レベルのモダリティに対して、MTGRRは、各モダリティを専用の専門家GNNによって処理する、Mix-of-expertsグラフアーキテクチャを採用している。
点レベルのモダリティのために、双対レベルのGNNを構築して、きめ細かい視覚的意味的特徴を抽出する。
論文 参考訳(メタデータ) (2025-09-28T09:38:08Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - UniGraph2: Learning a Unified Embedding Space to Bind Multimodal Graphs [34.48393396390799]
マルチモーダルグラフ上での汎用的な表現学習を可能にする新しいクロスドメイングラフ基盤モデルを提案する。
UniGraph2は、グラフニューラルネットワーク(GNN)と共にモダリティ固有のエンコーダを使用して、統一された低次元埋め込み空間を学習する。
我々は,UniGraph2が表現学習,伝達学習,マルチモーダル生成タスクなどのタスクにおいて,最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-02-02T14:04:53Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - A Multi-Semantic Metapath Model for Large Scale Heterogeneous Network
Representation Learning [52.83948119677194]
大規模不均一表現学習のためのマルチセマンティックメタパス(MSM)モデルを提案する。
具体的には,マルチセマンティックなメタパスに基づくランダムウォークを生成し,不均衡な分布を扱うヘテロジニアスな近傍を構築する。
提案するフレームワークに対して,AmazonとAlibabaの2つの挑戦的なデータセットに対して,体系的な評価を行う。
論文 参考訳(メタデータ) (2020-07-19T22:50:20Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。