論文の概要: See or Say Graphs: Agent-Driven Scalable Graph Understanding with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.16769v1
- Date: Sun, 19 Oct 2025 09:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.134658
- Title: See or Say Graphs: Agent-Driven Scalable Graph Understanding with Vision-Language Models
- Title(参考訳): See or Say Graphs: 視覚言語モデルによるエージェント駆動のスケーラブルグラフ理解
- Authors: Shuo Han, Yukun Cao, Zezhong Ding, Zengyi Gao, S Kevin Zhou, Xike Xie,
- Abstract要約: 本稿では,グラフ理解におけるスケーラビリティとモダリティの協調性を両立する統合フレームワークを提案する。
スケーラビリティのため、GraphVistaはグラフ情報を階層的に軽量なGraphRAGベースに整理する。
モダリティ調整のために、GraphVistaはタスクを最も適切なモダリティにルーティングする計画エージェントを導入した。
- 参考スコア(独自算出の注目度): 34.29171455515379
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-language models (VLMs) have shown promise in graph understanding, but remain limited by input-token constraints, facing scalability bottlenecks and lacking effective mechanisms to coordinate textual and visual modalities. To address these challenges, we propose GraphVista, a unified framework that enhances both scalability and modality coordination in graph understanding. For scalability, GraphVista organizes graph information hierarchically into a lightweight GraphRAG base, which retrieves only task-relevant textual descriptions and high-resolution visual subgraphs, compressing redundant context while preserving key reasoning elements. For modality coordination, GraphVista introduces a planning agent that routes tasks to the most suitable modality-using the text modality for simple property reasoning and the visual modality for local and structurally complex reasoning grounded in explicit topology. Extensive experiments demonstrate that GraphVista scales to large graphs, up to $200\times$ larger than those used in existing benchmarks, and consistently outperforms existing textual, visual, and fusion-based methods, achieving up to $4.4\times$ quality improvement over the state-of-the-art baselines by fully exploiting the complementary strengths of both modalities.
- Abstract(参考訳): 視覚言語モデル(VLM)は、グラフ理解において有望であるが、入力の制約によって制限され、スケーラビリティのボトルネックに直面し、テキストと視覚のモダリティをコーディネートする効果的なメカニズムが欠如している。
これらの課題に対処するため,グラフ理解におけるスケーラビリティとモダリティ調整を両立させる統合フレームワークであるGraphVistaを提案する。
スケーラビリティのために、GraphVistaはグラフ情報を階層的に軽量なGraphRAGベースに整理し、タスク関連テキスト記述と高解像度のビジュアルサブグラフのみを取得し、キー推論要素を保持しながら冗長なコンテキストを圧縮する。
モダリティ調整のために、GraphVistaは、単純なプロパティ推論のためのテキストモダリティと、明示的なトポロジに基づく局所的および構造的複雑な推論のための視覚的モダリティを、タスクを最も適したモダリティにルーティングする計画エージェントを導入した。
大規模な実験により、GraphVistaは、既存のベンチマークで使用されるものよりも最大200\times$、既存のテキスト、ビジュアル、および融合ベースのメソッドを一貫して上回り、両方のモダリティの相補的な強みをフル活用して、最先端のベースラインよりも最大4.4\times$品質の改善を達成している。
関連論文リスト
- GILT: An LLM-Free, Tuning-Free Graph Foundational Model for In-Context Learning [50.40400074353263]
グラフニューラルネットワーク(GNN)は、リレーショナルデータを先行する強力なツールであるが、しばしば目に見えないグラフに一般化するのに苦労する。
textbfGraph textbfIn-context textbfL textbfTransformer (GILT)を導入する。
論文 参考訳(メタデータ) (2025-10-06T08:09:15Z) - Query-Aware Learnable Graph Pooling Tokens as Prompt for Large Language Models [3.9489815622117566]
Learnable Graph Pooling Token (LGPT)は、フレキシブルで効率的なグラフ表現を可能にする。
提案手法は,大規模言語モデルを訓練することなく,GraphQAベンチマークで4.13%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-29T10:35:41Z) - A Hierarchical Language Model For Interpretable Graph Reasoning [47.460255447561906]
ノード中心の局所情報と相互作用中心のグローバル構造を捉えるために2ブロックアーキテクチャを用いる階層型グラフ言語モデル(HLM-G)を導入する。
提案手法は,大規模グラフ処理における計算コストを削減しつつ,高い効率性,効率性,ロバスト性で様々なグラフクエリに対処することを可能にする。
多様なグラフ推論およびノード,リンク,グラフレベルの実世界のタスクに対する総合的な評価は,本手法の優位性を強調している。
論文 参考訳(メタデータ) (2024-10-29T00:28:02Z) - Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - GRAG: Graph Retrieval-Augmented Generation [14.98084919101233]
Graph Retrieval-Augmented Generation (GRAG)は、テキストサブグラフを取得する際の根本的な課題に取り組む。
本稿では,線形時間で最適な部分グラフ構造を検索する新たな分割・対数戦略を提案する。
グラフ推論ベンチマーク実験により, GRAG法が現在のRAG法より大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-05-26T10:11:40Z) - When Graph Data Meets Multimodal: A New Paradigm for Graph Understanding
and Reasoning [54.84870836443311]
本稿では,画像エンコーディングとマルチモーダル技術を統合することで,グラフデータの理解と推論を行う新しいパラダイムを提案する。
このアプローチは, GPT-4Vの高度な機能を利用して, 命令応答形式によるグラフデータの理解を可能にする。
研究は、このパラダイムを様々なグラフタイプで評価し、特に中国のOCRパフォーマンスと複雑な推論タスクにおいて、モデルの強みと弱みを強調した。
論文 参考訳(メタデータ) (2023-12-16T08:14:11Z) - GraphGPT: Graph Instruction Tuning for Large Language Models [27.036935149004726]
グラフニューラルネットワーク(GNN)は、グラフ構造を理解するために進化してきた。
堅牢性を高めるために、自己教師付き学習(SSL)はデータ拡張の重要なツールとなっている。
本研究は,ゼロショット学習環境におけるグラフモデルの一般化を推し進めることによって,この問題に対処する。
論文 参考訳(メタデータ) (2023-10-19T06:17:46Z) - CommPOOL: An Interpretable Graph Pooling Framework for Hierarchical
Graph Representation Learning [74.90535111881358]
新しい解釈可能なグラフプーリングフレームワークである CommPOOL を提案します。
グラフ表現学習プロセスにおいて、グラフの階層的なコミュニティ構造をキャプチャし、保存することができる。
CommPOOLは階層グラフ表現学習のための汎用的で柔軟なフレームワークです。
論文 参考訳(メタデータ) (2020-12-10T21:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。