論文の概要: Graph-to-Vision: Multi-graph Understanding and Reasoning using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.21435v1
- Date: Thu, 27 Mar 2025 12:20:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:05.824789
- Title: Graph-to-Vision: Multi-graph Understanding and Reasoning using Vision-Language Models
- Title(参考訳): Graph-to-Vision:視覚言語モデルを用いたマルチグラフ理解と推論
- Authors: Ruizhou Li, Haiyun Jiang,
- Abstract要約: VLM(Vision-Language Models)は、例外的なクロスモーダルな関係推論能力と一般化能力を示す。
我々のベンチマークでは、知識グラフ、フローチャート、マインドマップ、ルートマップの4つのグラフカテゴリを網羅し、各グラフグループには、段階的に困難な3つの命令応答ペアが伴っている。
本研究は,VLMのマルチグラフ推論における未探索評価ギャップに対処するだけでなく,グラフ構造化学習における一般化優位性を実証的に検証する。
- 参考スコア(独自算出の注目度): 10.813015912529936
- License:
- Abstract: Graph Neural Networks (GNNs), as the dominant paradigm for graph-structured learning, have long faced dual challenges of exponentially escalating computational complexity and inadequate cross-scenario generalization capability. With the rapid advancement of multimodal learning, Vision-Language Models (VLMs) have demonstrated exceptional cross-modal relational reasoning capabilities and generalization capacities, thereby opening up novel pathways for overcoming the inherent limitations of conventional graph learning paradigms. However, current research predominantly concentrates on investigating the single-graph reasoning capabilities of VLMs, which fundamentally fails to address the critical requirement for coordinated reasoning across multiple heterogeneous graph data in real-world application scenarios. To address these limitations, we propose the first multi-graph joint reasoning benchmark for VLMs. Our benchmark encompasses four graph categories: knowledge graphs, flowcharts, mind maps, and route maps,with each graph group accompanied by three progressively challenging instruction-response pairs. Leveraging this benchmark, we conducted comprehensive capability assessments of state-of-the-art VLMs and performed fine-tuning on open-source models. This study not only addresses the underexplored evaluation gap in multi-graph reasoning for VLMs but also empirically validates their generalization superiority in graph-structured learning.
- Abstract(参考訳): グラフ構造化学習の主流パラダイムであるグラフニューラルネットワーク(GNN)は、計算複雑性を指数関数的にエスカレートし、クロスシナリオの一般化能力を不十分にするという2つの課題に長年直面してきた。
マルチモーダル学習の急速な進歩に伴い、ビジョン・ランゲージ・モデル(VLM)は、従来のグラフ学習パラダイムの本質的な限界を克服するための新しい経路を開放する、例外的なクロスモーダルな関係推論能力と一般化能力を示した。
しかしながら、現在の研究は、VLMの単一グラフ推論能力の研究に主に集中しており、これは現実のアプリケーションシナリオにおける複数の異種グラフデータ間での協調推論のクリティカルな要件に根本的に対処するのに失敗する。
これらの制約に対処するため、VLMのための最初のマルチグラフ共同推論ベンチマークを提案する。
我々のベンチマークでは、知識グラフ、フローチャート、マインドマップ、ルートマップの4つのグラフカテゴリを網羅し、各グラフグループには、段階的に困難な3つの命令応答ペアが伴っている。
このベンチマークを利用して、最先端のVLMの総合的な能力評価を行い、オープンソースモデルの微調整を行った。
本研究は,VLMのマルチグラフ推論における未探索評価ギャップに対処するだけでなく,グラフ構造化学習における一般化優位性を実証的に検証する。
関連論文リスト
- Revisiting Graph Neural Networks on Graph-level Tasks: Comprehensive Experiments, Analysis, and Improvements [54.006506479865344]
グラフレベルグラフニューラルネットワーク(GNN)のための統一評価フレームワークを提案する。
このフレームワークは、さまざまなデータセットにわたるGNNを評価するための標準化された設定を提供する。
また,表現性の向上と一般化機能を備えた新しいGNNモデルを提案する。
論文 参考訳(メタデータ) (2025-01-01T08:48:53Z) - Towards Graph Foundation Models: Learning Generalities Across Graphs via Task-Trees [50.78679002846741]
グラフにおけるクロスタスクの一般性を学習するための新しいアプローチを提案する。
グラフ上のタスク空間を整列させるための基本的な学習インスタンスとしてタスクツリーを提案する。
その結果,グラフニューラルネットワークが多種多様なタスクツリーで事前訓練された場合,伝達可能な知識を取得することが示唆された。
論文 参考訳(メタデータ) (2024-12-21T02:07:43Z) - Graph Learning in the Era of LLMs: A Survey from the Perspective of Data, Models, and Tasks [25.720233631885726]
グラフニューラルネットワーク(GNN)とLarge Language Models(LLM)の統合は、有望な技術パラダイムとして現れている。
データ品質を根本的に向上させるために、リッチなセマンティックコンテキストを持つグラフ記述テキストを活用します。
この研究は、グラフ学習方法論の進歩を目指す研究者や実践者にとって、基礎的な参考となる。
論文 参考訳(メタデータ) (2024-12-17T01:41:17Z) - Towards Graph Foundation Models: The Perspective of Zero-shot Reasoning on Knowledge Graphs [14.392577069212292]
我々は、ゼロショット学習を用いて、多様なグラフタスクを効果的に一般化する統合グラフ推論フレームワークSCOREを紹介する。
SCOREを38種類のグラフデータセットを用いて評価し、ノードレベル、リンクレベル、グラフレベルのタスクを複数のドメインでカバーする。
論文 参考訳(メタデータ) (2024-10-16T14:26:08Z) - How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - Towards Graph Prompt Learning: A Survey and Beyond [38.55555996765227]
大規模"事前訓練と迅速な学習"パラダイムは、顕著な適応性を示している。
この調査は、この分野における100以上の関連する研究を分類し、一般的な設計原則と最新の応用を要約する。
論文 参考訳(メタデータ) (2024-08-26T06:36:42Z) - Balanced Multi-Relational Graph Clustering [5.531383184058319]
マルチリレーショナルグラフクラスタリングは、複雑なネットワークの基盤となるパターンを明らかにすることに顕著な成功を収めた。
我々の実証的研究は、現実のグラフにおいて不均衡が広範に存在することを発見し、これは原則的にアライメントの動機と矛盾する。
我々は、教師なしの主観的マイニングと二重信号誘導表現学習からなるバランス付きマルチリレーショナルグラフクラスタリング(BMGC)を提案する。
論文 参考訳(メタデータ) (2024-07-23T22:11:13Z) - Deep Contrastive Graph Learning with Clustering-Oriented Guidance [61.103996105756394]
グラフ畳み込みネットワーク(GCN)は、グラフベースのクラスタリングを改善する上で大きな可能性を秘めている。
モデルはGCNを適用するために初期グラフを事前に推定する。
一般的なデータクラスタリングには,Deep Contrastive Graph Learning (DCGL)モデルが提案されている。
論文 参考訳(メタデータ) (2024-02-25T07:03:37Z) - Learning Strong Graph Neural Networks with Weak Information [64.64996100343602]
我々は、弱い情報(GLWI)を用いたグラフ学習問題に対する原則的アプローチを開発する。
非完全構造を持つ入力グラフ上で長距離情報伝搬を行うデュアルチャネルGNNフレームワークであるD$2$PTを提案するが、グローバルな意味的類似性を符号化するグローバルグラフも提案する。
論文 参考訳(メタデータ) (2023-05-29T04:51:09Z) - Model-Agnostic Graph Regularization for Few-Shot Learning [60.64531995451357]
グラフ組み込み数ショット学習に関する包括的な研究を紹介します。
本稿では,ラベル間のグラフ情報の組み込みによる影響をより深く理解できるグラフ正規化手法を提案する。
提案手法は,Mini-ImageNetで最大2%,ImageNet-FSで6.7%の性能向上を実現する。
論文 参考訳(メタデータ) (2021-02-14T05:28:13Z) - Quantifying Challenges in the Application of Graph Representation
Learning [0.0]
私たちは、一般的な埋め込みアプローチのセットに対して、アプリケーション指向の視点を提供します。
実世界のグラフ特性に関する表現力を評価する。
GRLアプローチは現実のシナリオでは定義が困難であることが示唆された。
論文 参考訳(メタデータ) (2020-06-18T03:19:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。