論文の概要: Graph4MM: Weaving Multimodal Learning with Structural Information
- arxiv url: http://arxiv.org/abs/2510.16990v1
- Date: Sun, 19 Oct 2025 20:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.238222
- Title: Graph4MM: Weaving Multimodal Learning with Structural Information
- Title(参考訳): Graph4MM: 構造情報によるマルチモーダル学習の織り方
- Authors: Xuying Ning, Dongqi Fu, Tianxin Wei, Wujiang Xu, Jingrui He,
- Abstract要約: グラフは、モーダル内およびモーダル間関係をモデル化するための強力な構造情報を提供する。
それまでの作業では、マルチホップの隣人を区別できず、グラフをスタンドアローンのモダリティとして扱う。
グラフベースのマルチモーダル学習フレームワークであるGraph4MMを提案する。
- 参考スコア(独自算出の注目度): 52.16646463590474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world multimodal data usually exhibit complex structural relationships beyond traditional one-to-one mappings like image-caption pairs. Entities across modalities interact in intricate ways, with images and text forming diverse interconnections through contextual dependencies and co-references. Graphs provide powerful structural information for modeling intra-modal and inter-modal relationships. However, previous works fail to distinguish multi-hop neighbors and treat the graph as a standalone modality, which fragments the overall understanding. This limitation presents two key challenges in multimodal learning: (1) integrating structural information from multi-hop neighbors into foundational models, and (2) fusing modality-specific information in a principled manner. To address these challenges, we revisit the role of graphs in multimodal learning within the era of foundation models and propose Graph4MM, a graph-based multimodal learning framework. To be specific, we introduce Hop-Diffused Attention, which integrates multi-hop structural information into self-attention through causal masking and hop diffusion. Furthermore, we design MM-QFormer, a multi-mapping querying transformer for cross-modal fusion. Through theoretical and empirical analysis, we show that leveraging structures to integrate both intra- and inter-modal interactions improves multimodal understanding beyond treating them as a standalone modality. Experiments on both generative and discriminative tasks show that Graph4MM outperforms larger VLMs, LLMs, and multimodal graph baselines, achieving a 6.93% average improvement.
- Abstract(参考訳): 実世界のマルチモーダルデータは通常、画像キャプチャーペアのような従来の1対1マッピングを超えて複雑な構造関係を示す。
モダリティにまたがるエンティティは複雑な方法で相互作用し、画像やテキストはコンテキスト依存やコリファレンスを通じて様々な相互接続を形成する。
グラフは、モーダル内およびモーダル間関係をモデル化するための強力な構造情報を提供する。
しかし、以前の研究はマルチホップ隣人を区別できず、グラフを独立したモダリティとして扱い、全体的な理解を断片化する。
この制限は, マルチモーダル学習における2つの重要な課題である。(1) マルチホップ隣人からの構造情報を基礎モデルに統合すること,(2) モダリティ固有の情報を原則的に融合することである。
これらの課題に対処するため、基礎モデル時代におけるマルチモーダル学習におけるグラフの役割を再考し、グラフベースのマルチモーダル学習フレームワークであるGraph4MMを提案する。
具体的には,マルチホップ構造情報を因果マスクやホップ拡散を通じて自己注意に統合するホップ拡散注意法を提案する。
さらに,マルチマッピング型クエリ変換器MM-QFormerの設計を行った。
理論的および経験的分析を通じて、構造を活用してモーダル内相互作用とモーダル間相互作用を統合することにより、モーダルを単独のモーダルとして扱うこと以上のマルチモーダル理解が向上することを示す。
生成的タスクと識別的タスクの両方の実験では、Graph4MMはより大きなVLM、LLM、マルチモーダルグラフベースラインより優れており、平均6.93%の改善が達成されている。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Towards Multi-modal Graph Large Language Model [34.70458746950645]
マルチモーダルグラフ大言語モデル(MG-LLM)の可能性を探り,多様なマルチモーダルグラフデータやタスクを統一・一般化する。
1)マルチモーダルな構造と属性の統一空間,2)多様なマルチモーダルなグラフタスクを扱う能力,3)マルチモーダルなインコンテキスト学習,4)自然言語とのマルチモーダルなグラフインタラクション,5)マルチモーダルなグラフ推論。
論文 参考訳(メタデータ) (2025-06-11T13:41:29Z) - UniGraph2: Learning a Unified Embedding Space to Bind Multimodal Graphs [34.48393396390799]
マルチモーダルグラフ上での汎用的な表現学習を可能にする新しいクロスドメイングラフ基盤モデルを提案する。
UniGraph2は、グラフニューラルネットワーク(GNN)と共にモダリティ固有のエンコーダを使用して、統一された低次元埋め込み空間を学習する。
我々は,UniGraph2が表現学習,伝達学習,マルチモーダル生成タスクなどのタスクにおいて,最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-02-02T14:04:53Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。