論文の概要: Gecko: A Simulation Environment with Stateful Feedback for Refining Agent Tool Calls
- arxiv url: http://arxiv.org/abs/2602.19218v1
- Date: Sun, 22 Feb 2026 15:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.537313
- Title: Gecko: A Simulation Environment with Stateful Feedback for Refining Agent Tool Calls
- Title(参考訳): Gecko: エージェントツールコールのステートフルフィードバックを備えたシミュレーション環境
- Authors: Zeyu Zhang, Guohao Li, Zhenchang Xing, Alexandros Apostolopoulos, Yu Lin Lee, Liang Zheng,
- Abstract要約: 本稿では,ルールとLLMを組み合わせてツール応答をシミュレートする総合環境であるGeckoを紹介する。
GATS は GPT-4o, GPT-5, Gemini-3.0-pro など様々な LLM のツールコール性能を一貫して改善している。
- 参考スコア(独自算出の注目度): 56.407063247662336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to use tools is fundamental for large language model (LLM) agents. Given a task, existing systems use LLMs to plan and generate tool calls, which are executed by real-world tools to complete the task. However, tool calls are prone to errors because they are derived merely from LLM intrinsic capabilities. What is more, while it is useful to let LLMs iteratively refine the tool-call sequence using execution results from real tools, this process can be expensive and lead to unsafe results. To improve LLM tool calls and address issues caused by using real tools for refinement, we introduce Gecko, a comprehensive environment that simulates tool responses using a combination of rules and LLMs. Specifically, Gecko checks the validity of tool calls including input arguments and tool names, synthesizes reasonable responses that adhere to the output schema, and assesses whether all task objectives have been achieved. These three types of feedback provided by Gecko allow LLMs to refine their tool calls, forming a simple yet effective test-time scaling method named GATS. On BFCLv3 and $τ^2$-bench, GATS consistently improves the tool calling performance of various LLMs including GPT-4o, GPT-5, and Gemini-3.0-pro. We further discuss working mechanisms of our method and share future possibilities.
- Abstract(参考訳): ツールを使用する能力は、大規模言語モデル(LLM)エージェントの基本である。
タスクが与えられた場合、既存のシステムは LLM を使用してツールコールを計画し、生成する。
しかし、ツールコールはLLM固有の能力から派生しているため、エラーを起こしやすい。
さらに、LLMが実際のツールの実行結果を使って反復的にツールコールシーケンスを洗練させるのが有用だが、このプロセスは高価であり、安全でない結果につながる可能性がある。
LLMツールコールの改善と改善のために,ルールとLLMを組み合わせてツール応答をシミュレートする総合環境であるGeckoを紹介した。
具体的には、入力引数やツール名を含むツールコールの有効性を確認し、出力スキーマに準拠する合理的な応答を合成し、すべてのタスク目標が達成されたかどうかを評価する。
Geckoが提供した3種類のフィードバックにより、LLMはツールコールを洗練でき、GATSと呼ばれるシンプルで効果的なテスト時間スケーリングメソッドを構築できる。
BFCLv3 と $τ^2$-bench では、GATS は GPT-4o, GPT-5, Gemini-3.0-pro など様々な LLM の呼び出し性能を一貫して改善している。
さらに,本手法の動作機構について考察し,今後の可能性について述べる。
関連論文リスト
- Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。