論文の概要: GNNVerifier: Graph-based Verifier for LLM Task Planning
- arxiv url: http://arxiv.org/abs/2603.14730v2
- Date: Tue, 17 Mar 2026 04:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 13:19:43.945456
- Title: GNNVerifier: Graph-based Verifier for LLM Task Planning
- Title(参考訳): GNN Verifier: LLMタスク計画のためのグラフベースの検証器
- Authors: Yu Hao, Qiuyu Wang, Cheng Yang, Yawen Li, Zhiqiang Zhang, Chuan Shi,
- Abstract要約: 大規模言語モデル(LLM)は、自律エージェントの開発を促進する。
近年の研究では、潜在的な欠陥を特定し、修正するための計画検証器が導入されている。
既存のほとんどのアプローチは、検証子として LLM に依存している。
LLMタスク計画のためのグラフベースの検証器を提案する。
- 参考スコア(独自算出の注目度): 26.77252346424261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) facilitate the development of autonomous agents. As a core component of such agents, task planning aims to decompose complex natural language requests into concrete, solvable sub-tasks. Since LLM-generated plans are frequently prone to hallucinations and sensitive to long-context prom-pts, recent research has introduced plan verifiers to identify and correct potential flaws. However, most existing approaches still rely on an LLM as the verifier via additional prompting for plan review or self-reflection. LLM-based verifiers can be misled by plausible narration and struggle to detect failures caused by structural relations across steps, such as type mismatches, missing intermediates, or broken dependencies. To address these limitations, we propose a graph-based verifier for LLM task planning. Specifically, the proposed method has four major components: Firstly, we represent a plan as a directed graph with enriched attributes, where nodes denote sub-tasks and edges encode execution order and dependency constraints. Secondly, a graph neural network (GNN) then performs structural evaluation and diagnosis, producing a graph-level plausibility score for plan acceptance as well as node/edge-level risk scores to localize erroneous regions. Thirdly, we construct controllable perturbations from ground truth plan graphs, and automatically generate training data with fine-grained annotations. Finally, guided by the feedback from our GNN verifier, we enable an LLM to conduct local edits (e.g., tool replacement or insertion) to correct the plan when the graph-level score is insufficient. Extensive experiments across diverse datasets, backbone LLMs, and planners demonstrate that our GNNVerifier achieves significant gains in improving plan quality. Our data and code is available at https://github.com/BUPT-GAMMA/GNNVerifier.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自律エージェントの開発を促進する。
このようなエージェントの中核的な構成要素として、タスクプランニングは複雑な自然言語要求を具体的で解決可能なサブタスクに分解することを目的としている。
LLMが生成する計画はしばしば幻覚を起こしやすく、長文のprom-ptsに敏感であるため、最近の研究は潜在的な欠陥を特定し修正するための計画検証器を導入している。
しかし、既存のほとんどのアプローチは、計画レビューや自己回帰のための追加のプロンプトを通じて、LCMを検証手段として頼りにしている。
LLMベースの検証は、単純なナレーションによって誤解され、型ミスマッチ、欠落した中間子、あるいは壊れた依存関係など、ステップ間の構造的関係に起因する失敗を検出するのに苦労する。
これらの制約に対処するため,LLMタスク計画のためのグラフベースの検証器を提案する。
具体的には,提案手法には4つの主要な構成要素がある: まず,ノードがサブタスクを示し,エッジが実行順序と依存性の制約を符号化する,リッチな属性を持つ有向グラフとして計画を表現する。
次に、グラフニューラルネットワーク(GNN)が構造評価と診断を行い、計画受け入れのためのグラフレベルの妥当性スコアとノード/エッジレベルのリスクスコアを生成し、誤った領域をローカライズする。
第三に、地上の真理計画グラフから制御可能な摂動を構築し、微粒なアノテーションでトレーニングデータを自動的に生成する。
最後に、GNN検証装置からのフィードバックによってLLMが局所的な編集(例えば、ツール置換や挿入)を行い、グラフレベルスコアが不十分な場合に計画を修正する。
多様なデータセット、バックボーンLLM、プランナーにわたる大規模な実験は、我々のGNNVerifierがプランの品質向上に大きく貢献することを示した。
私たちのデータとコードはhttps://github.com/BUPT-GAMMA/GNNVerifier.comで公開されています。
関連論文リスト
- AGRAG: Advanced Graph-based Retrieval-Augmented Generation for LLMs [15.570965946461255]
グラフベースの検索強化生成(RAG)は構造化知識でLarge Language Models(LLMs)を増強する大きな可能性を証明している。
既存の手法では、不正確なグラフ構築、不適切な推論能力、不適切な解答の3つの重要な課題に直面している。
本稿では,高度なグラフベースの検索拡張生成フレームワークであるAGRAGを提案する。
論文 参考訳(メタデータ) (2025-11-02T06:13:06Z) - GILT: An LLM-Free, Tuning-Free Graph Foundational Model for In-Context Learning [50.40400074353263]
グラフニューラルネットワーク(GNN)は、リレーショナルデータを先行する強力なツールであるが、しばしば目に見えないグラフに一般化するのに苦労する。
textbfGraph textbfIn-context textbfL textbfTransformer (GILT)を導入する。
論文 参考訳(メタデータ) (2025-10-06T08:09:15Z) - Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [79.75818239774952]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - Scalability Matters: Overcoming Challenges in InstructGLM with Similarity-Degree-Based Sampling [1.2805157669888096]
提案するSDM-InstructGLMは,GNNに依存することなく,拡張性と効率を向上する命令調整グラフ言語モデル(InstructGLM)フレームワークである。
本手法では,ノード間類似度と次数集中度に基づいてグラフ情報を選択的にサンプリングし,符号化する,類似度に基づくバイアス付きランダムウォーク機構を提案する。
本結果は,LLMのみのグラフ処理の実現可能性を示し,命令ベースの微調整によって最適化されたスケーラブルかつ解釈可能なグラフ言語モデル(GLM)を実現する。
論文 参考訳(メタデータ) (2025-05-02T06:08:21Z) - Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。
本稿では,課題計画のためのグラフ学習に基づく手法について検討する。
我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文 参考訳(メタデータ) (2024-05-29T14:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。