論文の概要: GraphVLM: Benchmarking Vision Language Models for Multimodal Graph Learning
- arxiv url: http://arxiv.org/abs/2603.13370v1
- Date: Mon, 09 Mar 2026 16:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.131299
- Title: GraphVLM: Benchmarking Vision Language Models for Multimodal Graph Learning
- Title(参考訳): GraphVLM:マルチモーダルグラフ学習のためのビジョン言語モデルのベンチマーク
- Authors: Jiajin Liu, Dongzhe Fan, Chuanhao Ji, Daochen Zha, Qiaoyu Tan,
- Abstract要約: VLM(Vision-Language Models)は、マルチモーダル信号の整列と理解において顕著な能力を示す。
この機能をアンロックすることは、ソーシャルネットワークやレコメンデーションシステム、科学的発見といった現実世界のアプリケーションにとって不可欠である。
マルチモーダルグラフ学習におけるVLMの性能評価と活用を目的としたベンチマークであるGraphVLMを提案する。
- 参考スコア(独自算出の注目度): 22.486504107013307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated remarkable capabilities in aligning and understanding multimodal signals, yet their potential to reason over structured data, where multimodal entities are connected through explicit relational graphs, remains largely underexplored. Unlocking this capability is crucial for real-world applications such as social networks, recommendation systems, and scientific discovery, where multimodal information is inherently structured. To bridge this gap, we present GraphVLM, a systematic benchmark designed to evaluate and harness the capabilities of VLMs for multimodal graph learning (MMGL). GraphVLM investigates three complementary paradigms for integrating VLMs with graph reasoning: (1) VLM-as-Encoder, which enriches graph neural networks through multimodal feature fusion; (2) VLM-as-Aligner, which bridges modalities in latent or linguistic space to facilitate LLM-based structured reasoning; and (3) VLM-as-Predictor, which directly employs VLMs as multimodal backbones for graph learning tasks. Extensive experiments across six datasets from diverse domains demonstrate that VLMs enhance multimodal graph learning via all three roles. Among these paradigms, VLM-as-Predictor achieves the most substantial and consistent performance gains, revealing the untapped potential of vision-language models as a new foundation for multimodal graph learning. The benchmark code is publicly available at https://github.com/oamyjin/GraphVLM.
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダル信号の整列と理解において顕著な能力を示したが、多モーダルエンティティが明示的なリレーショナルグラフを通して接続される構造化データに対する推論の可能性は、大半は未解明のままである。
この機能をアンロックすることは、ソーシャルネットワーク、レコメンデーションシステム、そしてマルチモーダル情報が本質的に構造化されている科学的発見のような現実世界のアプリケーションにとって重要である。
このギャップを埋めるために,マルチモーダルグラフ学習(MMGL)のためのVLMの性能評価と活用を目的とした,系統的なベンチマークであるGraphVLMを提案する。
グラフ推論とVLMを統合するための相補的パラダイムとして,(1)マルチモーダルな特徴融合を通じてグラフニューラルネットワークを充実させるVLM-as-Encoder,(2)潜在空間や言語空間のモダリティをブリッジしてLLMに基づく構造化推論を促進するVLM-as-Aligner,(3)グラフ学習タスクに直接VLMをマルチモーダルバックボーンとして利用するVLM-as-Predictor,の3つが研究されている。
多様な領域から得られた6つのデータセットにわたる大規模な実験により、VLMは3つの役割すべてを通してマルチモーダルグラフ学習を強化することが示された。
これらのパラダイムの中で、VLM-as-Predictorは最も実質的で一貫したパフォーマンス向上を実現し、マルチモーダルグラフ学習の新たな基盤として視覚言語モデルの未完成の可能性を明らかにしている。
ベンチマークコードはhttps://github.com/oamyjin/GraphVLMで公開されている。
関連論文リスト
- Graph4MM: Weaving Multimodal Learning with Structural Information [52.16646463590474]
グラフは、モーダル内およびモーダル間関係をモデル化するための強力な構造情報を提供する。
それまでの作業では、マルチホップの隣人を区別できず、グラフをスタンドアローンのモダリティとして扱う。
グラフベースのマルチモーダル学習フレームワークであるGraph4MMを提案する。
論文 参考訳(メタデータ) (2025-10-19T20:13:03Z) - Graph-MLLM: Harnessing Multimodal Large Language Models for Multimodal Graph Learning [23.089644598166885]
MLLM(Multimodal Large Language Models)は、多様なモダリティを表現および理解する際、顕著な能力を示す。
構造化グラフ情報(マルチモーダルグラフ、MMG)とマルチモーダルを統合することは、ソーシャルネットワーク、ヘルスケア、レコメンデーションシステムといった現実のアプリケーションに不可欠である。
既存のMMG学習手法はMLLMの活用法に基づいて3つのパラダイムに分類される。
論文 参考訳(メタデータ) (2025-06-12T01:44:46Z) - MLaGA: Multimodal Large Language and Graph Assistant [9.985787670804823]
大規模言語モデル (LLMs) は, グラフ構造化データ解析の進歩に有効であることを示す。
複雑なグラフ構造やマルチモーダル属性の推論を容易にするため,LLM機能を拡張する革新的なモデルであるMultimodal Large Language and Graph Assistant (MLaGA)を導入する。
論文 参考訳(メタデータ) (2025-06-03T07:52:00Z) - Graph-to-Vision: Multi-graph Understanding and Reasoning using Vision-Language Models [10.813015912529936]
VLM(Vision-Language Models)のマルチグラフ推論能力の評価と向上を目的とした,初の総合ベンチマークを導入する。
本ベンチマークでは,4つの共通グラフ型(知識グラフ,フローチャート,マインドマップ,ルートマップ)を網羅し,同種グラフ群と異種グラフ群をサポートする。
グラフ解析,推論整合性,命令追従精度を評価する多次元スコアリングフレームワークを用いて,最先端のVLMを評価した。
論文 参考訳(メタデータ) (2025-03-27T12:20:37Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。