論文の概要: Graph-to-Vision: Multi-graph Understanding and Reasoning using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.21435v2
- Date: Mon, 26 May 2025 16:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.734338
- Title: Graph-to-Vision: Multi-graph Understanding and Reasoning using Vision-Language Models
- Title(参考訳): Graph-to-Vision:視覚言語モデルを用いたマルチグラフ理解と推論
- Authors: Ruizhou Li, Haiyun Jiang,
- Abstract要約: VLM(Vision-Language Models)のマルチグラフ推論能力の評価と向上を目的とした,初の総合ベンチマークを導入する。
本ベンチマークでは,4つの共通グラフ型(知識グラフ,フローチャート,マインドマップ,ルートマップ)を網羅し,同種グラフ群と異種グラフ群をサポートする。
グラフ解析,推論整合性,命令追従精度を評価する多次元スコアリングフレームワークを用いて,最先端のVLMを評価した。
- 参考スコア(独自算出の注目度): 10.813015912529936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision-Language Models (VLMs) have shown promising capabilities in interpreting visualized graph data, offering a new perspective for graph-structured reasoning beyond traditional Graph Neural Networks (GNNs). However, existing studies focus primarily on single-graph reasoning, leaving the critical challenge of multi-graph joint reasoning underexplored. In this work, we introduce the first comprehensive benchmark designed to evaluate and enhance the multi-graph reasoning abilities of VLMs. Our benchmark covers four common graph types-knowledge graphs, flowcharts, mind maps, and route maps-and supports both homogeneous and heterogeneous graph groupings with tasks of increasing complexity. We evaluate several state-of-the-art VLMs under a multi-dimensional scoring framework that assesses graph parsing, reasoning consistency, and instruction-following accuracy. Additionally, we fine-tune multiple open-source models and observe consistent improvements, confirming the effectiveness of our dataset. This work provides a principled step toward advancing multi-graph understanding and reveals new opportunities for cross-modal graph intelligence.
- Abstract(参考訳): VLM(Vision-Language Models)の最近の進歩は、視覚化されたグラフデータを解釈する上で有望な能力を示し、従来のグラフニューラルネットワーク(GNN)を超えたグラフ構造化推論の新しい視点を提供する。
しかし、既存の研究は主に単グラフ推論に焦点が当てられており、多グラフ共同推論の重大な課題は未解明のままである。
本稿では,VLMのマルチグラフ推論能力の評価と向上を目的とした,初の総合ベンチマークを提案する。
本ベンチマークでは,4つの共通グラフ型-知識グラフ,フローチャート,マインドマップ,ルートマップを網羅し,複雑さの増大を伴う等質グラフと異質グラフのグルーピングをサポートする。
グラフ解析,推論整合性,命令追従精度を評価する多次元スコアリングフレームワークを用いて,最先端のVLMを評価した。
さらに、複数のオープンソースモデルを微調整し、一貫した改善を観察し、データセットの有効性を確認します。
この研究は、マルチグラフ理解を進めるための原則的なステップを提供し、クロスモーダルグラフインテリジェンスの新しい機会を明らかにする。
関連論文リスト
- Revisiting Graph Neural Networks on Graph-level Tasks: Comprehensive Experiments, Analysis, and Improvements [54.006506479865344]
グラフレベルグラフニューラルネットワーク(GNN)のための統一評価フレームワークを提案する。
このフレームワークは、さまざまなデータセットにわたるGNNを評価するための標準化された設定を提供する。
また,表現性の向上と一般化機能を備えた新しいGNNモデルを提案する。
論文 参考訳(メタデータ) (2025-01-01T08:48:53Z) - Towards Graph Foundation Models: Learning Generalities Across Graphs via Task-Trees [50.78679002846741]
グラフにおけるクロスタスクの一般性を学習するための新しいアプローチを提案する。
グラフ上のタスク空間を整列させるための基本的な学習インスタンスとしてタスクツリーを提案する。
その結果,グラフニューラルネットワークが多種多様なタスクツリーで事前訓練された場合,伝達可能な知識を取得することが示唆された。
論文 参考訳(メタデータ) (2024-12-21T02:07:43Z) - Graph Learning in the Era of LLMs: A Survey from the Perspective of Data, Models, and Tasks [25.720233631885726]
グラフニューラルネットワーク(GNN)とLarge Language Models(LLM)の統合は、有望な技術パラダイムとして現れている。
データ品質を根本的に向上させるために、リッチなセマンティックコンテキストを持つグラフ記述テキストを活用します。
この研究は、グラフ学習方法論の進歩を目指す研究者や実践者にとって、基礎的な参考となる。
論文 参考訳(メタデータ) (2024-12-17T01:41:17Z) - Towards Graph Foundation Models: The Perspective of Zero-shot Reasoning on Knowledge Graphs [14.392577069212292]
我々は、ゼロショット学習を用いて、多様なグラフタスクを効果的に一般化する統合グラフ推論フレームワークSCOREを紹介する。
SCOREを38種類のグラフデータセットを用いて評価し、ノードレベル、リンクレベル、グラフレベルのタスクを複数のドメインでカバーする。
論文 参考訳(メタデータ) (2024-10-16T14:26:08Z) - How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - Towards Graph Prompt Learning: A Survey and Beyond [38.55555996765227]
大規模"事前訓練と迅速な学習"パラダイムは、顕著な適応性を示している。
この調査は、この分野における100以上の関連する研究を分類し、一般的な設計原則と最新の応用を要約する。
論文 参考訳(メタデータ) (2024-08-26T06:36:42Z) - Balanced Multi-Relational Graph Clustering [5.531383184058319]
マルチリレーショナルグラフクラスタリングは、複雑なネットワークの基盤となるパターンを明らかにすることに顕著な成功を収めた。
我々の実証的研究は、現実のグラフにおいて不均衡が広範に存在することを発見し、これは原則的にアライメントの動機と矛盾する。
我々は、教師なしの主観的マイニングと二重信号誘導表現学習からなるバランス付きマルチリレーショナルグラフクラスタリング(BMGC)を提案する。
論文 参考訳(メタデータ) (2024-07-23T22:11:13Z) - Deep Contrastive Graph Learning with Clustering-Oriented Guidance [61.103996105756394]
グラフ畳み込みネットワーク(GCN)は、グラフベースのクラスタリングを改善する上で大きな可能性を秘めている。
モデルはGCNを適用するために初期グラフを事前に推定する。
一般的なデータクラスタリングには,Deep Contrastive Graph Learning (DCGL)モデルが提案されている。
論文 参考訳(メタデータ) (2024-02-25T07:03:37Z) - Graph Foundation Models: Concepts, Opportunities and Challenges [66.37994863159861]
ファンデーションモデルは、さまざまな人工知能アプリケーションにおいて重要なコンポーネントとして現れてきた。
一般化と適応における基礎モデルの能力は、グラフ機械学習研究者を動機付け、新しいグラフ学習パラダイムを開発する可能性について議論する。
本稿では,グラフ基礎モデル(GFM)の概念を紹介し,その重要な特徴と基礎技術について概説する。
論文 参考訳(メタデータ) (2023-10-18T09:31:21Z) - Learning Strong Graph Neural Networks with Weak Information [64.64996100343602]
我々は、弱い情報(GLWI)を用いたグラフ学習問題に対する原則的アプローチを開発する。
非完全構造を持つ入力グラフ上で長距離情報伝搬を行うデュアルチャネルGNNフレームワークであるD$2$PTを提案するが、グローバルな意味的類似性を符号化するグローバルグラフも提案する。
論文 参考訳(メタデータ) (2023-05-29T04:51:09Z) - State of the Art and Potentialities of Graph-level Learning [54.68482109186052]
グラフレベルの学習は、比較、回帰、分類など、多くのタスクに適用されている。
グラフの集合を学習する伝統的なアプローチは、サブストラクチャのような手作りの特徴に依存している。
ディープラーニングは、機能を自動的に抽出し、グラフを低次元表現に符号化することで、グラフレベルの学習をグラフの規模に適応させるのに役立っている。
論文 参考訳(メタデータ) (2023-01-14T09:15:49Z) - Model-Agnostic Graph Regularization for Few-Shot Learning [60.64531995451357]
グラフ組み込み数ショット学習に関する包括的な研究を紹介します。
本稿では,ラベル間のグラフ情報の組み込みによる影響をより深く理解できるグラフ正規化手法を提案する。
提案手法は,Mini-ImageNetで最大2%,ImageNet-FSで6.7%の性能向上を実現する。
論文 参考訳(メタデータ) (2021-02-14T05:28:13Z) - Quantifying Challenges in the Application of Graph Representation
Learning [0.0]
私たちは、一般的な埋め込みアプローチのセットに対して、アプリケーション指向の視点を提供します。
実世界のグラフ特性に関する表現力を評価する。
GRLアプローチは現実のシナリオでは定義が困難であることが示唆された。
論文 参考訳(メタデータ) (2020-06-18T03:19:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。