論文の概要: EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection
- arxiv url: http://arxiv.org/abs/2603.04900v1
- Date: Thu, 05 Mar 2026 07:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.12512
- Title: EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection
- Title(参考訳): EvoTool: ブレムアウェア変異と多様性アウェア選択によるLDMエージェントの自己進化ツール利用ポリシー最適化
- Authors: Shuo Yang, Soyeon Caren Han, Xueqi Ma, Yan Li, Mohammad Reza Ghasemi Madani, Eduard Hovy,
- Abstract要約: EvoToolはエージェントのツール使用ポリシーをPlanner、Selector、Caller、Synthesizerの4つのモジュールに分解する。
3つの新しいメカニズムを通じて、反復的に自己改善ループで改善する。
GPT-4.1とQwen3-8Bでは5点以上の強いベースラインを上回り、高い効率と転送性を実現している。
- 参考スコア(独自算出の注目度): 20.648927252425356
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM-based agents depend on effective tool-use policies to solve complex tasks, yet optimizing these policies remains challenging due to delayed supervision and the difficulty of credit assignment in long-horizon trajectories. Existing optimization approaches tend to be either monolithic, which are prone to entangling behaviors, or single-aspect, which ignore cross-module error propagation. To address these limitations, we propose EvoTool, a self-evolving framework that optimizes a modular tool-use policy via a gradient-free evolutionary paradigm. EvoTool decomposes agent's tool-use policy into four modules, including Planner, Selector, Caller, and Synthesizer, and iteratively improves them in a self-improving loop through three novel mechanisms. Trajectory-Grounded Blame Attribution uses diagnostic traces to localize failures to a specific module. Feedback-Guided Targeted Mutation then edits only that module via natural-language critique. Diversity-Aware Population Selection preserves complementary candidates to ensure solution diversity. Across four benchmarks, EvoTool outperforms strong baselines by over 5 points on both GPT-4.1 and Qwen3-8B, while achieving superior efficiency and transferability. The code will be released once paper is accepted.
- Abstract(参考訳): LLMをベースとしたエージェントは、複雑なタスクを解決するための効果的なツール利用ポリシーに依存している。
既存の最適化アプローチは、モノリシックな動作が絡み合う傾向にあるか、モジュール間のエラーの伝搬を無視する単一アスペクトのどちらかである。
これらの制約に対処するために、勾配のない進化パラダイムを通じてモジュラーツール利用ポリシーを最適化する自己進化型フレームワークであるEvoToolを提案する。
EvoToolはエージェントのツール使用ポリシーを、Planner、Selector、Caller、Synthesizerを含む4つのモジュールに分解し、3つの新しいメカニズムを通じて繰り返し改善する。
Trajectory-Grounded Blame Attributionは、特定のモジュールに障害をローカライズするために診断トレースを使用する。
Feedback-Guided Targeted Mutationは、自然言語の批評を通じて、そのモジュールのみを編集する。
多様性を意識した人口選択は、ソリューションの多様性を保証するために補完的な候補を保存する。
4つのベンチマークで、EvoToolはGPT-4.1とQwen3-8Bの両方で5点以上の高いベースラインを上回り、優れた効率と転送性を実現した。
論文が受け入れられたら、コードはリリースされます。
関連論文リスト
- AdaEvolve: Adaptive LLM Driven Zeroth-Order Optimization [61.535567824938205]
本稿では,LLMによる進化を階層的適応最適化問題として再構成するフレームワークであるAdaEvolveを紹介する。
AdaEvolveは185の異なるオープンエンド最適化問題において、オープンエンドベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-23T18:45:31Z) - Gecko: A Simulation Environment with Stateful Feedback for Refining Agent Tool Calls [56.407063247662336]
本稿では,ルールとLLMを組み合わせてツール応答をシミュレートする総合環境であるGeckoを紹介する。
GATS は GPT-4o, GPT-5, Gemini-3.0-pro など様々な LLM のツールコール性能を一貫して改善している。
論文 参考訳(メタデータ) (2026-02-22T15:02:00Z) - Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution [15.627651452629706]
大規模言語モデル(LLM)は、凍結した仮定のために複雑で長い水平推論に苦しむ。
ポパーの「否定と反感」にインスパイアされた我々は、知性はモデルのポリシーをリアルタイムで進化させる必要があると論じる。
本稿では,推論をオンライン最適化プロセスとして再放送するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-28T08:44:34Z) - Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning [58.432996881401415]
最近の作業では、エージェント推論を可能にするために、外部ツールで大きな言語モデル(LLM)を拡張している。
本稿では,入力プロンプトを書き換えることのみでエージェント推論を妨害するスポンジツールアタック(STA)を提案する。
STAは、意味的忠実度の高い原文からの良心的な即興的な書き直しを生成する。
論文 参考訳(メタデータ) (2026-01-24T19:36:51Z) - EvoFSM: Controllable Self-Evolution for Deep Research with Finite State Machines [23.086761228480682]
EvoFSMは、明示的な有限状態マシンを進化させ、適応性と制御の両方を達成する構造化自己進化フレームワークである。
EvoFSMは、小さな制約された操作によってFSMを洗練し、また、再利用可能な事前および障害パターンとして成功したトラジェクトリを蒸留する自己進化メモリも組み込む。
特に、EvoFSMはDeepSearchベンチマークで58.0%の精度に達する。
論文 参考訳(メタデータ) (2026-01-14T13:19:13Z) - EvoLattice: Persistent Internal-Population Evolution through Multi-Alternative Quality-Diversity Graph Representations for LLM-Guided Program Discovery [2.1756081703276]
EvoLatticeは、単一の非巡回グラフ内の候補プログラムやエージェントの行動の全集団を表すフレームワークである。
各ノードは複数の永続的な選択肢を格納し、グラフを通る有効なパスは、それぞれ別の候補を定義する。
EvoLatticeは、ローカルデザインの選択がグローバルパフォーマンスにどのように影響するかを示す統計データを生成する。
論文 参考訳(メタデータ) (2025-12-15T19:43:06Z) - In-the-Flow Agentic System Optimization for Effective Planning and Tool Use [73.72524040856052]
AgentFlowはトレーニング可能なインザフローエージェントフレームワークで、進化するメモリを通じて4つのモジュール(プランナ、実行子、検証子、ジェネレータ)をコーディネートする。
Flow-GRPOは、マルチターン最適化をトラクタブルな単一ターンポリシー更新のシーケンスに変換することで、長い水平、スパース・リワードのクレジット割り当てに取り組む。
エージェントフローは7Bスケールのバックボーンで、平均的精度が14.9%、エージェントが14.0%、数学が14.5%、科学的タスクが4.1%でトップパフォーマンスのベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-07T05:32:44Z) - LLAMA: Multi-Feedback Smart Contract Fuzzing Framework with LLM-Guided Seed Generation [56.84049855266145]
進化的突然変異戦略とハイブリッドテスト技術を統合したマルチフィードバックスマートコントラクトファジリングフレームワーク(LLAMA)を提案する。
LLAMAは、91%の命令カバレッジと90%のブランチカバレッジを達成すると同時に、148の既知の脆弱性のうち132が検出される。
これらの結果は、現実のスマートコントラクトセキュリティテストシナリオにおけるLAMAの有効性、適応性、実用性を強調している。
論文 参考訳(メタデータ) (2025-07-16T09:46:58Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。