論文の概要: DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs
- arxiv url: http://arxiv.org/abs/2602.21864v1
- Date: Wed, 25 Feb 2026 12:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.836381
- Title: DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs
- Title(参考訳): DynamicGTR: グラフトポロジ表現の活用によるグラフQA上のVLM機能向上
- Authors: Yanbin Wei, Jiangyue Yan, Chun Kang, Yang Chen, Hua Liu, James Kwok, Yu Zhang,
- Abstract要約: VLM(Vision-Language Models)は、様々な領域にわたるゼロショット質問応答(QA)のための汎用的なソリューションとして登場した。
推論中に各クエリに対して最適なGTRを動的に選択する$mboxDynamicGTR$フレームワークを提案する。
実験により、DynamicGTRはVLMベースのグラフアルゴリズムのQA性能を向上するだけでなく、合成グラフアルゴリズムのタスクからトレーニングされた経験を実世界のアプリケーションに転送することに成功した。
- 参考スコア(独自算出の注目度): 13.383154580460207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have emerged as versatile solutions for zero-shot question answering (QA) across various domains. However, enabling VLMs to effectively comprehend structured graphs and perform accurate, efficient QA remains challenging. Existing approaches typically rely on one single graph topology representation (GTR), such as fixed-style visual images or unified text descriptions. This ``one-size-fits-all'' strategy often neglects model-specific and task-specific preferences, resulting in inaccurate or over-lengthy responses to graph-related queries. To address this, we propose the $\mbox{DynamicGTR}$ framework, which dynamically selects the optimal GTR for each query during inference, thereby enhancing the zero-shot graph QA capabilities of VLMs with a customizable accuracy and brevity trade-off. Extensive experiments show that DynamicGTR not only improves VLM-based graph algorithm QA performance but also successfully transfers the experience trained from synthetic graph algorithm tasks to real-world applications like link prediction and node classification, without any additional training. Additionally, DynamicGTR demonstrates strong transferability across tasks, domains, and models, suggesting its potential as a flexible solution for broad graph scenarios.
- Abstract(参考訳): VLM(Vision-Language Models)は、様々な領域にわたるゼロショット質問応答(QA)のための汎用的なソリューションとして登場した。
しかし、VLMが構造化グラフを効果的に理解し、正確で効率的なQAを実現することは、依然として困難である。
既存のアプローチでは、固定スタイルのビジュアルイメージや統一されたテキスト記述など、単一のグラフトポロジ表現(GTR)が一般的である。
この 'one-size-fits-all' 戦略は、しばしばモデル固有の、タスク固有の好みを無視し、グラフ関連のクエリに対する不正確な、あるいは長すぎる応答をもたらす。
これを解決するために、$\mbox{DynamicGTR}$ frameworkを提案し、推論中に各クエリに対して最適なGTRを動的に選択し、カスタマイズ可能な精度と簡潔なトレードオフでVLMのゼロショットグラフQA能力を向上する。
大規模な実験により、DynamicGTRはVLMベースのグラフアルゴリズムのQA性能を向上するだけでなく、合成グラフアルゴリズムのタスクからトレーニングした経験を、追加のトレーニングなしでリンク予測やノード分類といった現実世界のアプリケーションに転送することに成功した。
さらに、DynamicGTRはタスク、ドメイン、モデル間の強力な転送可能性を示し、広いグラフシナリオに対する柔軟なソリューションとしての可能性を示している。
関連論文リスト
- AutoGraph-R1: End-to-End Reinforcement Learning for Knowledge Graph Construction [60.51319139563509]
強化学習(RL)を用いたタスクパフォーマンスのKG構築を直接最適化する最初のフレームワークであるAutoGraph-R1を紹介する。
我々は2つの新しいタスク対応報酬関数を設計し、1つは知識担体としてのグラフと、もう1つは知識指標としてのグラフを設計する。
私たちの研究は、構築とアプリケーションの間のループを閉じることが可能であることを示している。
論文 参考訳(メタデータ) (2025-10-17T06:03:36Z) - GILT: An LLM-Free, Tuning-Free Graph Foundational Model for In-Context Learning [50.40400074353263]
グラフニューラルネットワーク(GNN)は、リレーショナルデータを先行する強力なツールであるが、しばしば目に見えないグラフに一般化するのに苦労する。
textbfGraph textbfIn-context textbfL textbfTransformer (GILT)を導入する。
論文 参考訳(メタデータ) (2025-10-06T08:09:15Z) - Enrich-on-Graph: Query-Graph Alignment for Complex Reasoning with LLM Enriching [61.824094419641575]
大言語モデル(LLM)は知識グラフ質問応答(KGQA)のような知識集約的なシナリオにおける幻覚と事実的誤りに苦しむ
これは、構造化知識グラフ(KG)と非構造化クエリのセマンティックギャップによるもので、その焦点や構造に固有の違いが原因である。
既存の手法は通常、バニラKGの資源集約的で非スケーリング可能な推論を用いるが、このギャップを見落としている。
我々は、LLMの事前知識を活用してKGを充実させる柔軟なフレームワークEnrich-on-Graph(EoG)を提案し、グラフとクエリ間のセマンティックギャップを埋める。
論文 参考訳(メタデータ) (2025-09-25T06:48:52Z) - Revisiting Graph Neural Networks on Graph-level Tasks: Comprehensive Experiments, Analysis, and Improvements [54.006506479865344]
グラフレベルグラフニューラルネットワーク(GNN)のための統一評価フレームワークを提案する。
このフレームワークは、さまざまなデータセットにわたるGNNを評価するための標準化された設定を提供する。
また,表現性の向上と一般化機能を備えた新しいGNNモデルを提案する。
論文 参考訳(メタデータ) (2025-01-01T08:48:53Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - SelfGraphVQA: A Self-Supervised Graph Neural Network for Scene-based
Question Answering [0.0]
シーングラフはマルチモーダル画像解析の有用なツールとして登場した。
理想化されたアノテートシーングラフを利用する現在の手法は、画像から抽出された予測シーングラフを使用する場合、一般化に苦慮している。
本稿では,事前学習したシーングラフ生成器を用いて,入力画像からシーングラフを抽出する。
論文 参考訳(メタデータ) (2023-10-03T07:14:53Z) - A Versatile Graph Learning Approach through LLM-based Agent [33.37921145183175]
LLMに基づくエージェントを用いた多目的グラフ学習手法を提案する。
多様なプロファイル,ツール,機能,人間体験を備えたLCMエージェントを複数開発する。
多様なタスクやグラフを評価することで、エージェントの正しい結果と同等の性能が提案手法の汎用性を示している。
論文 参考訳(メタデータ) (2023-09-08T19:34:29Z) - Dynamic Graph Representation Learning via Graph Transformer Networks [41.570839291138114]
動的グラフ変換器 (DGT) を用いた動的グラフ学習手法を提案する。
DGTは、グラフトポロジを効果的に学習し、暗黙のリンクをキャプチャするための時空間符号化を持つ。
DGTはいくつかの最先端のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-19T21:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。