論文の概要: Repairing Tool Calls Using Post-tool Execution Reflection and RAG
- arxiv url: http://arxiv.org/abs/2510.17874v1
- Date: Fri, 17 Oct 2025 03:50:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.245452
- Title: Repairing Tool Calls Using Post-tool Execution Reflection and RAG
- Title(参考訳): ポストツール実行反射とRAGを用いた補修ツールコール
- Authors: Jason Tsay, Zidane Wright, Gaodan Fang, Kiran Kate, Saurabh Jha, Yara Rizk,
- Abstract要約: エージェントシステムは,Python関数やREST APIエンドポイント,kubectlなどのコマンドラインツールをコールすることで,外部システムと対話する。
これらのツールコールは、様々な構文的および意味的な理由で失敗することが多い。
大規模言語モデル(LLM)に基づくリフレクションとドメイン固有検索拡張生成(RAG)を組み合わせたポストツール実行コンポーネントを開発した。
- 参考スコア(独自算出の注目度): 5.352165816659788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic systems interact with external systems by calling tools such as Python functions, REST API endpoints, or command line tools such as kubectl in Kubernetes. These tool calls often fail for various syntactic and semantic reasons. Some less obvious semantic errors can only be identified and resolved after analyzing the tool's response. To repair these errors, we develop a post-tool execution reflection component that combines large language model (LLM)-based reflection with domain-specific retrieval-augmented generation (RAG) using documents describing both the specific tool being called and troubleshooting documents related to the tool. For this paper, we focus on the use case of the kubectl command line tool to manage Kubernetes, a platform for orchestrating cluster applications. Through a larger empirical study and a smaller manual evaluation, we find that our RAG-based reflection will repair kubectl commands such that they are both more likely to successfully execute (pass rate) for 55% of our models evaluated and 36% more likely to correctly answer the user query on average. We find that troubleshooting documents improve pass rate compared to official documentation by an average of 10%.
- Abstract(参考訳): エージェントシステムは、Python関数やREST APIエンドポイント、Kubernetesのkubectlのようなコマンドラインツールを呼び出すことによって、外部システムと対話する。
これらのツールコールは、様々な構文的および意味的な理由で失敗することが多い。
明確でないセマンティックエラーは、ツールの応答を分析した後のみ識別され解決される。
これらのエラーを補うため,大規模言語モデル(LLM)に基づくリフレクションとドメイン固有検索拡張生成(RAG)を組み合わせたポストツール実行反射コンポーネントを開発した。
本稿では、クラスタアプリケーションをオーケストレーションするプラットフォームであるKubernetesを管理するために、kubectlコマンドラインツールの使用例に焦点を当てる。
より大規模な実験研究と手作業による評価により、RAGベースのリフレクションがクベクトルコマンドを修復し、評価されたモデルの55%で正常に実行し(パスレート)、平均36%でユーザクエリに正しく答える可能性が高くなることがわかった。
トラブルシューティング文書は、公式文書と比較して平均10%のペースでパスレートが向上していることがわかった。
関連論文リスト
- Gecko: A Simulation Environment with Stateful Feedback for Refining Agent Tool Calls [56.407063247662336]
本稿では,ルールとLLMを組み合わせてツール応答をシミュレートする総合環境であるGeckoを紹介する。
GATS は GPT-4o, GPT-5, Gemini-3.0-pro など様々な LLM のツールコール性能を一貫して改善している。
論文 参考訳(メタデータ) (2026-02-22T15:02:00Z) - Dynamic Tool Dependency Retrieval for Efficient Function Calling [38.77768293858919]
動的ツール依存検索 (DTDR) は,初期クエリと実行コンテキストの進化を条件とした軽量な検索手法である。
DTDRを複数のデータセットと大規模言語モデルのバックボーンにまたがる最先端の検索手法と比較した。
以上の結果から,動的ツール検索は,最先端の静的検索よりも23%~104%の関数呼び出し成功率を向上することがわかった。
論文 参考訳(メタデータ) (2025-12-18T20:40:25Z) - ToolCritic: Detecting and Correcting Tool-Use Errors in Dialogue Systems [4.930296454541593]
ToolCriticは、マルチターン、ツール拡張された対話におけるツールの使用を評価し、改善するフレームワークである。
試行によると、ToolCriticはツール呼び出しの精度を最大13%改善している。
論文 参考訳(メタデータ) (2025-10-19T23:42:39Z) - ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.10274552177096]
外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。
このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。
構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-10-09T04:11:16Z) - Online-Optimized RAG for Tool Use and Function Calling [10.294181998196555]
検索拡張生成(RAG)は、事前に指定されたツール/機能記述にユーザクエリを埋め込むことで、ツールの使用と関数呼び出しを駆動する。
Online-d RAGは、最小限のフィードバックを使用して、ライブインタラクションからの検索埋め込みに適応する。
論文 参考訳(メタデータ) (2025-09-24T09:08:46Z) - Failure Makes the Agent Stronger: Enhancing Accuracy through Structured Reflection for Reliable Tool Interactions [10.598440138966028]
現在の自己回帰のプラクティスは、プロンプトや一方的な推論に依存しています。
提案する構造的リフレクションは, エラーから修復までの経路を明示的で制御可能な, 訓練可能な動作に変換する。
BFCL v3とTool-Reflection-Benchの実験では、マルチターンツールコールの成功とエラー回復、冗長呼び出しの削減が大幅に向上した。
論文 参考訳(メタデータ) (2025-09-23T09:35:49Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - MCP-Zero: Active Tool Discovery for Autonomous LLM Agents [13.005899769943442]
ツール発見の自律性を LLM 自体に復元する,アクティブエージェントフレームワークである MCP-Zero を紹介する。
すべての利用可能なツールで圧倒的なモデルを使用する代わりに、CP-Zeroはエージェントが能率ギャップを積極的に識別し、特定のツールをオンデマンドで要求することを可能にする。
公式の Model-Context-Protocol リポジトリから 308 の MCP サーバと 2,797 ツールの包括的なデータセットである MCP-tools を構築した。
論文 参考訳(メタデータ) (2025-06-01T15:48:53Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval [47.81307125613145]
Re-Invokeは、トレーニングなしで大規模ツールセットに効果的にスケールするために設計された教師なしツール検索手法である。
我々は、クエリ毎に最も関連性の高いツールを特定するために、意図に基づいて、新しいマルチビュー類似度ランキング戦略を採用する。
評価の結果、Re-Invokeはシングルツールとマルチツールの両方のシナリオにおいて、最先端の代替よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-03T22:49:27Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。