論文の概要: GAP: Graph-Based Agent Planning with Parallel Tool Use and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.25320v1
- Date: Wed, 29 Oct 2025 09:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.378608
- Title: GAP: Graph-Based Agent Planning with Parallel Tool Use and Reinforcement Learning
- Title(参考訳): GAP: 並列ツールと強化学習によるグラフベースエージェント計画
- Authors: Jiaqi Wu, Qinlao Zhao, Zefeng Chen, Kai Qin, Yifei Zhao, Xueqian Wang, Yuhang Yao,
- Abstract要約: グラフベースのエージェント計画(GAP)は、グラフベースの計画を通じてタスク間の依存関係を明示的にモデル化する新しいフレームワークである。
我々のアプローチは、複雑なタスクを依存性を意識したサブタスクグラフに分解する基礎モデルを訓練する。
この依存性を意識したオーケストレーションは、実行効率とタスクの正確性の両方で大幅に改善される。
- 参考スコア(独自算出の注目度): 20.75113227786218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents powered by large language models (LLMs) have shown impressive capabilities in tool manipulation for complex task-solving. However, existing paradigms such as ReAct rely on sequential reasoning and execution, failing to exploit the inherent parallelism among independent sub-tasks. This sequential bottleneck leads to inefficient tool utilization and suboptimal performance in multi-step reasoning scenarios. We introduce Graph-based Agent Planning (GAP), a novel framework that explicitly models inter-task dependencies through graph-based planning to enable adaptive parallel and serial tool execution. Our approach trains agent foundation models to decompose complex tasks into dependency-aware sub-task graphs, autonomously determining which tools can be executed in parallel and which must follow sequential dependencies. This dependency-aware orchestration achieves substantial improvements in both execution efficiency and task accuracy. To train GAP, we construct a high-quality dataset of graph-based planning traces derived from the Multi-Hop Question Answering (MHQA) benchmark. We employ a two-stage training strategy: supervised fine-tuning (SFT) on the curated dataset, followed by reinforcement learning (RL) with a correctness-based reward function on strategically sampled queries where tool-based reasoning provides maximum value. Experimental results on MHQA datasets demonstrate that GAP significantly outperforms traditional ReAct baselines, particularly on multi-step retrieval tasks, while achieving dramatic improvements in tool invocation efficiency through intelligent parallelization. The project page is available at: https://github.com/WJQ7777/Graph-Agent-Planning.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用した自律エージェントは、複雑なタスク解決のためのツール操作において印象的な機能を示している。
しかし、ReActのような既存のパラダイムはシーケンシャルな推論と実行に依存しており、独立したサブタスク間の固有の並列性を利用していない。
このシーケンシャルなボトルネックは、多段階推論シナリオにおける非効率なツール利用と最適以下のパフォーマンスをもたらす。
グラフベースの計画によってタスク間の依存関係を明示的にモデル化し、適応並列およびシリアルツールの実行を可能にする新しいフレームワークであるグラフベースのエージェント計画(GAP)を紹介した。
我々のアプローチは、複雑なタスクを依存性を意識したサブタスクグラフに分解し、どのツールを並列に実行できるか、そしてシーケンシャルな依存関係に従わなければならないかを自律的に決定する基礎モデルを訓練する。
この依存性を意識したオーケストレーションは、実行効率とタスクの正確性の両方で大幅に改善される。
GAPをトレーニングするために,Multi-Hop Question Answering (MHQA)ベンチマークから得られたグラフベースの計画トレースの高品質データセットを構築した。
評価データセット上での教師付き微調整(SFT)と,ツールベースの推論が最大値を提供する戦略的サンプリングクエリに対して,正当性に基づく報酬関数を備えた強化学習(RL)という2段階のトレーニング戦略を採用する。
MHQAデータセットの実験結果は、GAPが従来のReActベースライン、特にマルチステップ検索タスクを大幅に上回る一方で、インテリジェント並列化によるツール呼び出し効率の劇的な改善を実現していることを示している。
プロジェクトページは、https://github.com/WJQ7777/Graph-Agent-Planning.orgで公開されている。
関連論文リスト
- Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution [48.7788770680643]
Flash-Searcherは、新しい並列エージェント推論フレームワークである。
複雑なタスクを明示的な依存関係でサブタスクに分解し、独立した推論パスの同時実行を可能にする。
BrowseCompでは67.7%の精度で、xbench-DeepSearchでは83%、エージェントの実行手順は現在のフレームワークに比べて最大35%削減されている。
論文 参考訳(メタデータ) (2025-09-29T17:39:30Z) - Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use [50.02614257515131]
大規模言語モデル(LLM)は、言語理解と推論において強力な能力を示している。
本稿では,LLMの汎用的,構成的,多段階的なツール使用を可能にする強化学習フレームワークであるTool-R1を提案する。
論文 参考訳(メタデータ) (2025-09-16T09:22:21Z) - TableMind: An Autonomous Programmatic Agent for Tool-Augmented Table Reasoning [10.267950603662776]
TableMindは、データ分析と正確な数値推論のために、セキュアなサンドボックス環境で、マルチターンツールの実行、書き込み、実行を自律的に実行する、ツール統合テーブル推論エージェントである。
これらの機能を実現するために、我々は強力な事前学習言語モデルの上に構築された2段階の微調整パラダイムを採用する。
論文 参考訳(メタデータ) (2025-09-08T02:00:31Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - Improving Large Language Model Planning with Action Sequence Similarity [50.52049888490524]
本研究では,インコンテキスト学習(ICL)によるモデル計画能力の向上について検討する。
GRASE-DC は2段階のパイプラインで,まず高効率のAS例を再サンプリングし,選択した例をキュレートする。
実験の結果,GRASE-DCは様々な計画タスクにおいて大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-02T05:16:17Z) - Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - Divide-Then-Aggregate: An Efficient Tool Learning Method via Parallel Tool Invocation [36.29566268457534]
本稿では,新しい並列ツール呼び出しパラダイムDTA-Llamaを紹介する。
まず,従来の木に基づくツールサーチパスをDAG構造に変換する。
DTA-Llamaはデータセット上でトレーニングされ、現在のタスクを複数の並列ツール呼び出しサブタスクに反復的に分割する方法を学ぶ。
論文 参考訳(メタデータ) (2025-01-21T16:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。