論文の概要: ToolFuzz -- Automated Agent Tool Testing
- arxiv url: http://arxiv.org/abs/2503.04479v3
- Date: Tue, 11 Mar 2025 14:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 13:59:51.747182
- Title: ToolFuzz -- Automated Agent Tool Testing
- Title(参考訳): ToolFuzz -- エージェントツールの自動テスト
- Authors: Ivan Milev, Mislav Balunović, Maximilian Baader, Martin Vechev,
- Abstract要約: ToolFuzzは,(1)ツール実行時のエラーにつながるユーザクエリと,(2)誤ったエージェント応答につながるユーザクエリの2つのタイプのエラーを検出するように設計されている。
ToolFuzzは、プロンプトエンジニアリングのアプローチと比較して、20倍の誤入力を識別する。
- 参考スコア(独自算出の注目度): 5.174808367448261
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Model (LLM) Agents leverage the advanced reasoning capabilities of LLMs in real-world applications. To interface with an environment, these agents often rely on tools, such as web search or database APIs. As the agent provides the LLM with tool documentation along the user query, the completeness and correctness of this documentation is critical. However, tool documentation is often over-, under-, or ill-specified, impeding the agent's accuracy. Standard software testing approaches struggle to identify these errors as they are expressed in natural language. Thus, despite its importance, there currently exists no automated method to test the tool documentation for agents. To address this issue, we present ToolFuzz, the first method for automated testing of tool documentations. ToolFuzz is designed to discover two types of errors: (1) user queries leading to tool runtime errors and (2) user queries that lead to incorrect agent responses. ToolFuzz can generate a large and diverse set of natural inputs, effectively finding tool description errors at a low false positive rate. Further, we present two straightforward prompt-engineering approaches. We evaluate all three tool testing approaches on 32 common LangChain tools and 35 newly created custom tools and 2 novel benchmarks to further strengthen the assessment. We find that many publicly available tools suffer from underspecification. Specifically, we show that ToolFuzz identifies 20x more erroneous inputs compared to the prompt-engineering approaches, making it a key component for building reliable AI agents.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、現実のアプリケーションにおけるLLMの高度な推論能力を利用する。
環境とインターフェースするために、これらのエージェントはWeb検索やデータベースAPIといったツールに依存していることが多い。
エージェントがLCMにユーザクエリに沿ったツールドキュメントを提供するので、このドキュメントの完全性と正確性は重要です。
しかし、ツールドキュメンテーションはしばしば過剰、過小評価、または不特定であり、エージェントの正確さを妨げている。
標準的なソフトウェアテストアプローチは、自然言語で表現されたこれらのエラーを特定するのに苦労する。
したがって、その重要性にもかかわらず、エージェントのツールドキュメントをテストする自動メソッドは存在しない。
この問題に対処するため、ツールドキュメントを自動テストする最初の方法であるToolFuzzを紹介します。
ToolFuzzは,(1)ツール実行時のエラーにつながるユーザクエリと,(2)誤ったエージェント応答につながるユーザクエリの2つのタイプのエラーを検出するように設計されている。
ToolFuzzは、多種多様な自然な入力を生成し、偽陽性率の低いツール記述エラーを効果的に見つけることができる。
さらに,2つの簡単なプロンプトエンジニアリング手法を提案する。
評価をさらに強化するため、32の一般的なLangChainツールと35の新しいカスタムツールと2つの新しいベンチマークで3つのツールテストアプローチを評価した。
多くの公開ツールが不特定性に悩まされていることが分かりました。
具体的には、ToolFuzzは、プロンプトエンジニアリングアプローチと比較して、20倍の誤入力を識別し、信頼性の高いAIエージェントを構築するための重要なコンポーネントであることを示す。
関連論文リスト
- Prompt Injection Attack to Tool Selection in LLM Agents [74.90338504778781]
textitToolHijackerは、no-boxシナリオにおける新しいプロンプトインジェクション攻撃ツール選択である。
ToolHijackerは、LLMエージェントのツール選択プロセスを操作するために、悪意のあるツールドキュメントをツールライブラリに注入する。
ToolHijackerは非常に効果的で、既存の手動および自動プロンプトインジェクション攻撃よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-04-28T13:36:43Z) - A Framework for Testing and Adapting REST APIs as LLM Tools [5.758488787763118]
エージェントのツールとして機能するREST APIの評価と拡張を目的とした,新しいテストフレームワークを提案する。
当社のフレームワークはapisをツールとして変換し、APIの包括的なテストケースを生成し、ケースを自然言語命令に変換し、エージェントがAPIを正しく呼び出し、そのインプットとレスポンスを処理する能力を評価する。
論文 参考訳(メタデータ) (2025-04-22T02:52:08Z) - Benchmarking Failures in Tool-Augmented Language Models [41.94295877935867]
ツール拡張言語モデル(TaLM)は「完璧な」情報アクセスとツールの可用性を前提としている。
FAIL-TALMSベンチマークでは,未特定ユーザクエリと非利用ツールの2つの大きな障害を取り上げている。
トップパフォーマンスのプロプライエタリモデルとオープンソースモデルを評価し、Claude以外の現在のモデルはすべて、行方不明のツールや情報を認識するのに苦労しています。
論文 参考訳(メタデータ) (2025-03-18T13:04:55Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - ToolFactory: Automating Tool Generation by Leveraging LLM to Understand REST API Documentations [4.934192277899036]
APIドキュメントは、標準化、一貫性のないスキーマ、不完全な情報の欠如に悩まされることが多い。
textbfToolFactoryは、構造化されていないAPIドキュメントからツール生成を自動化するオープンソースのパイプラインである。
また,グリコマテリアル研究のためのドメイン固有のAIエージェントを作成することで,ToolFactoryを実証した。
論文 参考訳(メタデータ) (2025-01-28T13:42:33Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - GTA: A Benchmark for General Tool Agents [32.443456248222695]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。
GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。
この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文 参考訳(メタデータ) (2024-07-11T17:50:09Z) - Tools Fail: Detecting Silent Errors in Faulty Tools [27.822981272044043]
我々は、モデルが「サイレント」ツールを検出する能力を調べるためのツールのためのフレームワークを紹介します。
制御電卓設定と具体化エージェント計画の両方で有望な結果が得られるような早期の故障復旧手法を提案する。
論文 参考訳(メタデータ) (2024-06-27T14:52:34Z) - Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。
以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。
LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction [56.02100384015907]
EasyToolは、多種多様で長いツールドキュメントを統一的で簡潔なツール命令に変換するフレームワークである。
トークン使用量を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-01-11T15:45:11Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - Don't Fine-Tune, Decode: Syntax Error-Free Tool Use via Constrained Decoding [11.51687663492722]
大きな言語モデル(LLM)は多くのタスクで優れていますが、複雑な構文制約のため、外部ツールの使用に失敗することが多いのです。
本研究では,有限状態マシンを用いた復号アルゴリズムTOOLDECを提案する。
実験の結果、TOOLDECはすべての構文エラーを排除し、様々なベースモデルやベンチマークのパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2023-10-10T23:37:53Z) - ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world
APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。
データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。
ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文 参考訳(メタデータ) (2023-07-31T15:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。