論文の概要: EGL-SCA: Structural Credit Assignment for Co-Evolving Instructions and Tools in Graph Reasoning Agents
- arxiv url: http://arxiv.org/abs/2605.10366v1
- Date: Mon, 11 May 2026 11:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.753536
- Title: EGL-SCA: Structural Credit Assignment for Co-Evolving Instructions and Tools in Graph Reasoning Agents
- Title(参考訳): EGL-SCA:グラフ推論エージェントにおける共進化インストラクションとツールのための構造クレジットアサインメント
- Authors: Zike Yuan, Yukun Cao, Han Zhang, Jianzhi Yan, Le Liu, Cai ke, Yue Yu, Hui Wang, Ming Liu, Bing Qin,
- Abstract要約: グラフ推論エージェントのための検証器中心のデュアルスペースフレームワークであるEGL-SCAを提案する。
EGL-SCAは、最先端の92.0%の平均成功率を達成することを示す。
- 参考スコア(独自算出の注目度): 35.25814217014108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph reasoning agents operating from natural-language inputs must solve a coupled problem: they must reconstruct a structured graph instance from text, decide whether existing computational assets are sufficient, interact with tools under a strict execution protocol, and satisfy an external verifier that checks structured correctness rather than textual plausibility. Existing approaches usually improve either the instruction side or the tool side in isolation, which leaves unclear what should be updated after failure. We propose EGL-SCA, a verifier-centric dual-space framework that models a graph reasoning agent using two collaborative components: an instruction-side policy space for reasoning strategies, and a tool-side program space for executable algorithmic tools. Our central mechanism is structural credit assignment, which maps trajectory evidence to conditional updates, precisely routing failures to either prompt optimization or tool synthesis and repair. To provide sufficient learning signals for dual-space adaptation, we introduce a training distribution stratified by task family, coupled with a Pareto-style retention strategy to balance success, generality, and parsimony. Experiments on four graph reasoning benchmarks show that EGL-SCA achieves a state-of-the-art 92.0\% average success rate. By effectively co-evolving instructions and tools, our framework significantly outperforms both pure-prompting and fixed-toolbox baselines.
- Abstract(参考訳): 自然言語入力から動作するグラフ推論エージェントは、テキストから構造化グラフインスタンスを再構築し、既存の計算資産が十分かどうかを判断し、厳密な実行プロトコルの下でツールと対話し、テキストの妥当性よりも構造化された正しさをチェックする外部検証を満足しなければならない。
既存のアプローチは通常、命令側またはツール側を分離して改善する。
EGL-SCAは,2つの協調的なコンポーネント(推論戦略のための命令側ポリシー空間)と,実行可能なアルゴリズムツールのためのツール側プログラム空間)を用いて,グラフ推論エージェントをモデル化する検証器中心のデュアルスペースフレームワークである。
我々の中心的なメカニズムは、軌道証拠を条件付き更新にマッピングする構造的信用割当であり、失敗を最適化やツールの合成と修復を迅速に行うために正確にルーティングする。
両空間適応のための十分な学習信号を提供するために,タスクファミリーによって階層化された学習分布を導入し,成功,一般性,パシモニーのバランスをとるために,パレートスタイルの保持戦略と組み合わせた。
4つのグラフ推論ベンチマークの実験により、EGL-SCAは最先端の92.0\%の成功率を達成することが示された。
命令とツールを効果的に共進化させることで、我々のフレームワークは純粋プロンプトと固定ツールボックスのベースラインの両方を著しく上回ります。
関連論文リスト
- The Code Whisperer: LLM and Graph-Based AI for Smell and Vulnerability Resolution [42.25743513043402]
Code Whispererは、グラフベースのプログラム分析と大きな言語モデルを組み合わせて、保守性とセキュリティの問題を検出し、説明し、修復するハイブリッドフレームワークである。
このフレームワークを多言語データセット上で評価し,ルールベースアナライザや単一モデルベースラインと比較する。
論文 参考訳(メタデータ) (2026-04-12T20:10:48Z) - Thinking with Constructions: A Benchmark and Policy Optimization for Visual-Text Interleaved Geometric Reasoning [45.18040184559187]
本稿では,Visual-Text Interleaved Chain-of-Thoughtを提案する。
最初にGeoAux-Benchを紹介した。GeoAux-Benchは、4,334の幾何学的問題からなる最初のベンチマークで、テキスト構築ステップと地平線による視覚的更新を一致させる。
パイロット実験では,(1)視覚・テクスチュアル・エイズが,幾何学的相乗効果を損なわない単一モダリティ・エイズよりも優れており,(2)エントロピー・リデューサとして機能し,推論の難易度と強く関連している,という2つの重要な知見が得られた。
論文 参考訳(メタデータ) (2026-03-19T09:27:20Z) - Agentic Planning with Reasoning for Image Styling via Offline RL [66.10749901925941]
直接的なプロンプトベースの編集は複雑な変換では失敗するが、なぜなら曖昧で主観的なプロンプトは、画像に何を変更するべきかを微妙に理解する必要がしばしばあるからである。
ツールベースのエージェントRLポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T11:14:37Z) - PerfGuard: A Performance-Aware Agent for Visual Content Generation [53.591105729011595]
PerfGuardは、ビジュアルコンテンツ生成のためのパフォーマンス対応のエージェントフレームワークである。
ツールのパフォーマンス境界をタスク計画とスケジューリングに統合する。
ツール選択の正確性、実行の信頼性、ユーザの意図との整合性にメリットがあります。
論文 参考訳(メタデータ) (2026-01-30T05:12:19Z) - Adaptive Tool Generation with Models as Tools and Reinforcement Learning [3.592245101862886]
MTRは、ツール強化推論のためのシミュレーションファーストのトレーニングフレームワークである。
スキーマ検証されたシミュレートされた観察で、完全なReActトレースから学習する。
MTRは、ライブAPIシステムと競合するエクサクトマッチ(EM)スコアを取得する。
論文 参考訳(メタデータ) (2025-10-08T09:48:50Z) - Improving Large Language Models Function Calling and Interpretability via Guided-Structured Templates [56.73907811047611]
大規模言語モデル(LLM)は強力な推論とツール使用能力を示している。
LLMは、誤ったパラメータ化、悪いツールの選択、ユーザーの意図の誤解釈によって、現実世界のツールインタラクションで失敗することが多い。
我々は、構造化推論テンプレートを利用して、関数呼び出しを生成するためのより故意なステップバイステップ命令を通してLCMをガイドするカリキュラムに着想を得たフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:55:14Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。