論文の概要: Repairing Tool Calls Using Post-tool Execution Reflection and RAG
- arxiv url: http://arxiv.org/abs/2510.17874v1
- Date: Fri, 17 Oct 2025 03:50:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.245452
- Title: Repairing Tool Calls Using Post-tool Execution Reflection and RAG
- Title(参考訳): ポストツール実行反射とRAGを用いた補修ツールコール
- Authors: Jason Tsay, Zidane Wright, Gaodan Fang, Kiran Kate, Saurabh Jha, Yara Rizk,
- Abstract要約: エージェントシステムは,Python関数やREST APIエンドポイント,kubectlなどのコマンドラインツールをコールすることで,外部システムと対話する。
これらのツールコールは、様々な構文的および意味的な理由で失敗することが多い。
大規模言語モデル(LLM)に基づくリフレクションとドメイン固有検索拡張生成(RAG)を組み合わせたポストツール実行コンポーネントを開発した。
- 参考スコア(独自算出の注目度): 5.352165816659788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic systems interact with external systems by calling tools such as Python functions, REST API endpoints, or command line tools such as kubectl in Kubernetes. These tool calls often fail for various syntactic and semantic reasons. Some less obvious semantic errors can only be identified and resolved after analyzing the tool's response. To repair these errors, we develop a post-tool execution reflection component that combines large language model (LLM)-based reflection with domain-specific retrieval-augmented generation (RAG) using documents describing both the specific tool being called and troubleshooting documents related to the tool. For this paper, we focus on the use case of the kubectl command line tool to manage Kubernetes, a platform for orchestrating cluster applications. Through a larger empirical study and a smaller manual evaluation, we find that our RAG-based reflection will repair kubectl commands such that they are both more likely to successfully execute (pass rate) for 55% of our models evaluated and 36% more likely to correctly answer the user query on average. We find that troubleshooting documents improve pass rate compared to official documentation by an average of 10%.
- Abstract(参考訳): エージェントシステムは、Python関数やREST APIエンドポイント、Kubernetesのkubectlのようなコマンドラインツールを呼び出すことによって、外部システムと対話する。
これらのツールコールは、様々な構文的および意味的な理由で失敗することが多い。
明確でないセマンティックエラーは、ツールの応答を分析した後のみ識別され解決される。
これらのエラーを補うため,大規模言語モデル(LLM)に基づくリフレクションとドメイン固有検索拡張生成(RAG)を組み合わせたポストツール実行反射コンポーネントを開発した。
本稿では、クラスタアプリケーションをオーケストレーションするプラットフォームであるKubernetesを管理するために、kubectlコマンドラインツールの使用例に焦点を当てる。
より大規模な実験研究と手作業による評価により、RAGベースのリフレクションがクベクトルコマンドを修復し、評価されたモデルの55%で正常に実行し(パスレート)、平均36%でユーザクエリに正しく答える可能性が高くなることがわかった。
トラブルシューティング文書は、公式文書と比較して平均10%のペースでパスレートが向上していることがわかった。
関連論文リスト
- ToolCritic: Detecting and Correcting Tool-Use Errors in Dialogue Systems [4.930296454541593]
ToolCriticは、マルチターン、ツール拡張された対話におけるツールの使用を評価し、改善するフレームワークである。
試行によると、ToolCriticはツール呼び出しの精度を最大13%改善している。
論文 参考訳(メタデータ) (2025-10-19T23:42:39Z) - Failure Makes the Agent Stronger: Enhancing Accuracy through Structured Reflection for Reliable Tool Interactions [10.598440138966028]
現在の自己回帰のプラクティスは、プロンプトや一方的な推論に依存しています。
提案する構造的リフレクションは, エラーから修復までの経路を明示的で制御可能な, 訓練可能な動作に変換する。
BFCL v3とTool-Reflection-Benchの実験では、マルチターンツールコールの成功とエラー回復、冗長呼び出しの削減が大幅に向上した。
論文 参考訳(メタデータ) (2025-09-23T09:35:49Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - MCP-Zero: Active Tool Discovery for Autonomous LLM Agents [13.005899769943442]
ツール発見の自律性を LLM 自体に復元する,アクティブエージェントフレームワークである MCP-Zero を紹介する。
すべての利用可能なツールで圧倒的なモデルを使用する代わりに、CP-Zeroはエージェントが能率ギャップを積極的に識別し、特定のツールをオンデマンドで要求することを可能にする。
公式の Model-Context-Protocol リポジトリから 308 の MCP サーバと 2,797 ツールの包括的なデータセットである MCP-tools を構築した。
論文 参考訳(メタデータ) (2025-06-01T15:48:53Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval [47.81307125613145]
Re-Invokeは、トレーニングなしで大規模ツールセットに効果的にスケールするために設計された教師なしツール検索手法である。
我々は、クエリ毎に最も関連性の高いツールを特定するために、意図に基づいて、新しいマルチビュー類似度ランキング戦略を採用する。
評価の結果、Re-Invokeはシングルツールとマルチツールの両方のシナリオにおいて、最先端の代替よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-03T22:49:27Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。