論文の概要: Mario: Multimodal Graph Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2603.05181v1
- Date: Thu, 05 Mar 2026 13:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.254315
- Title: Mario: Multimodal Graph Reasoning with Large Language Models
- Title(参考訳): Mario: 大規模言語モデルによるマルチモーダルグラフ推論
- Authors: Yuanfu Sun, Kang Li, Pengkang Guo, Jiajin Liu, Qiaoyu Tan,
- Abstract要約: Marioはグラフ条件のVLMで、微粒なクロスモーダルコントラスト学習によってテキストや視覚的特徴を洗練する。
Marioは、ノード分類とリンク予測のための教師付きシナリオとゼロショットシナリオの両方において、最先端のグラフモデルより一貫して優れている。
- 参考スコア(独自算出の注目度): 10.232888977666418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have opened new avenues for multimodal reasoning. Yet, most existing methods still rely on pretrained vision-language models (VLMs) to encode image-text pairs in isolation, ignoring the relational structure that real-world multimodal data naturally form. This motivates reasoning on multimodal graphs (MMGs), where each node has textual and visual attributes and edges provide structural cues. Enabling LLM-based reasoning on such heterogeneous multimodal signals while preserving graph topology introduces two key challenges: resolving weak cross-modal consistency and handling heterogeneous modality preference. To address this, we propose Mario, a unified framework that simultaneously resolves the two above challenges and enables effective LLM-based reasoning over MMGs. Mario consists of two innovative stages. Firstly, a graph-conditioned VLM design that jointly refines textual and visual features through fine-grained cross-modal contrastive learning guided by graph topology. Secondly, a modality-adaptive graph instruction tuning mechanism that organizes aligned multimodal features into graph-aware instruction views and employs a learnable router to surface, for each node and its neighborhood, the most informative modality configuration to the LLM. Extensive experiments across diverse MMG benchmarks demonstrate that Mario consistently outperforms state-of-the-art graph models in both supervised and zero-shot scenarios for node classification and link prediction. The code will be made available at https://github.com/sunyuanfu/Mario.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、マルチモーダル推論のための新しい道を開いた。
しかし、既存のほとんどの手法は、実世界のマルチモーダルデータが自然に形成する関係構造を無視して、画像とテキストのペアを分離して符号化するために、事前訓練された視覚言語モデル(VLM)に依存している。
これはマルチモーダルグラフ(MMG)の推論を動機付け、各ノードがテキストや視覚的属性を持ち、エッジが構造的手がかりを提供する。
グラフトポロジーを保ちながら、そのような不均一なマルチモーダル信号に対するLLMに基づく推論は、弱いクロスモーダル一貫性の解消と不均一なモーダル優先の扱いという2つの大きな課題をもたらす。
これを解決するために,Marioを提案する。Marioは,上記の2つの課題を同時に解決し,MMGに対するLLMに基づく効果的な推論を可能にする統合フレームワークである。
マリオは2つの革新的なステージから構成される。
第一に、グラフトポロジで導かれる微粒なクロスモーダルコントラスト学習により、テキストと視覚の特徴を共同で洗練するグラフ条件付きVLM設計である。
第2に,マルチモーダル特徴をグラフ対応のインストラクションビューに整理し,学習可能なルータを各ノードとその周辺に導入するモダリティ適応型グラフインストラクション機構をLCMに最も有意義なモダリティ構成とする。
多様なMMGベンチマークによる大規模な実験により、マリオはノード分類とリンク予測のための教師付きシナリオとゼロショットシナリオの両方において、最先端のグラフモデルよりも一貫して優れていることが示された。
コードはhttps://github.com/sunyuanfu/Mario.comから入手できる。
関連論文リスト
- Toward Effective Multimodal Graph Foundation Model: A Divide-and-Conquer Based Approach [42.970648490410504]
MGFM(Multimodal Graph Foundation Models)は、Multimodal-Attributed Graphs(MAG)におけるリッチなマルチモーダル情報の活用を可能にする。
本稿では,異なる粒度にまたがるモダリティの相互作用とアライメントを分離するために,Divide-and-Conquer戦略を用いた新しいフレームワークPLANETを提案する。
PLANETは,様々なグラフ中心およびマルチモーダル生成タスクにおいて,最先端のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-02-04T01:05:12Z) - Language-Guided Graph Representation Learning for Video Summarization [96.2763459348758]
本稿では,映像要約のためのLGRLN(Language-guided Graph Representation Learning Network)を提案する。
具体的には,ビデオフレームを構造化グラフに変換して時間的順序と文脈依存性を保存するビデオグラフ生成装置を提案する。
提案手法は,複数のベンチマークにおいて既存手法より優れている。
論文 参考訳(メタデータ) (2025-11-14T04:35:48Z) - Graph4MM: Weaving Multimodal Learning with Structural Information [52.16646463590474]
グラフは、モーダル内およびモーダル間関係をモデル化するための強力な構造情報を提供する。
それまでの作業では、マルチホップの隣人を区別できず、グラフをスタンドアローンのモダリティとして扱う。
グラフベースのマルチモーダル学習フレームワークであるGraph4MMを提案する。
論文 参考訳(メタデータ) (2025-10-19T20:13:03Z) - MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - Graph-MLLM: Harnessing Multimodal Large Language Models for Multimodal Graph Learning [23.089644598166885]
MLLM(Multimodal Large Language Models)は、多様なモダリティを表現および理解する際、顕著な能力を示す。
構造化グラフ情報(マルチモーダルグラフ、MMG)とマルチモーダルを統合することは、ソーシャルネットワーク、ヘルスケア、レコメンデーションシステムといった現実のアプリケーションに不可欠である。
既存のMMG学習手法はMLLMの活用法に基づいて3つのパラダイムに分類される。
論文 参考訳(メタデータ) (2025-06-12T01:44:46Z) - MLaGA: Multimodal Large Language and Graph Assistant [9.985787670804823]
大規模言語モデル (LLMs) は, グラフ構造化データ解析の進歩に有効であることを示す。
複雑なグラフ構造やマルチモーダル属性の推論を容易にするため,LLM機能を拡張する革新的なモデルであるMultimodal Large Language and Graph Assistant (MLaGA)を導入する。
論文 参考訳(メタデータ) (2025-06-03T07:52:00Z) - LLM as GNN: Graph Vocabulary Learning for Text-Attributed Graph Foundation Models [87.68057302738457]
Text-Attributed Graphs (TAG) は、現実のシナリオにおいてユビキタスである。
大規模言語モデル(LLMs)とグラフニューラルネットワーク(GNNs)をTAGsに統合する努力にもかかわらず、既存のアプローチは分離されたアーキテクチャに悩まされている。
本稿では,グラフ語彙学習に基づくTAGのための汎用GFMであるPromptGFMを提案する。
論文 参考訳(メタデータ) (2025-03-05T09:45:22Z) - UniGraph2: Learning a Unified Embedding Space to Bind Multimodal Graphs [34.48393396390799]
マルチモーダルグラフ上での汎用的な表現学習を可能にする新しいクロスドメイングラフ基盤モデルを提案する。
UniGraph2は、グラフニューラルネットワーク(GNN)と共にモダリティ固有のエンコーダを使用して、統一された低次元埋め込み空間を学習する。
我々は,UniGraph2が表現学習,伝達学習,マルチモーダル生成タスクなどのタスクにおいて,最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-02-02T14:04:53Z) - Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision? [62.12375949429938]
本稿では,事前学習したグラフニューラルネットワークを下流タスクやデータに適用するためのマルチモーダル・プロンプト学習パラダイムを提案する。
我々の新しいパラダイムは、グラフプロンプトとテキストプロンプトの両方を同時に学習することで、Large Language Models(LLM)と直接同じ空間にグラフを埋め込む。
私たちは、GNNを極めて弱いテキスト管理で見えないクラスに一般化できるCLIPスタイルのゼロショット分類プロトタイプを構築した。
論文 参考訳(メタデータ) (2024-12-11T08:03:35Z) - Multi-Modal Video Dialog State Tracking in the Wild [10.453212911612866]
MST-MIXERは、汎用的なマルチモーダル状態追跡スキーム上で動作する新しいビデオダイアログモデルである。
新たなマルチモーダルグラフ構造学習法を用いて,各入力モードの選択した構成成分の不足する基盤構造を予測する。
5つの挑戦的なベンチマークで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2024-07-02T12:34:17Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。