論文の概要: ToolCritic: Detecting and Correcting Tool-Use Errors in Dialogue Systems
- arxiv url: http://arxiv.org/abs/2510.17052v1
- Date: Sun, 19 Oct 2025 23:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.266995
- Title: ToolCritic: Detecting and Correcting Tool-Use Errors in Dialogue Systems
- Title(参考訳): ToolCritic:対話システムにおけるツール使用エラーの検出と修正
- Authors: Hassan Hamad, Yingru Xu, Liang Zhao, Wenbo Yan, Narendra Gyanchandani,
- Abstract要約: ToolCriticは、マルチターン、ツール拡張された対話におけるツールの使用を評価し、改善するフレームワークである。
試行によると、ToolCriticはツール呼び出しの精度を最大13%改善している。
- 参考スコア(独自算出の注目度): 4.930296454541593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-augmented large language models (LLMs) are increasingly employed in real-world applications, but tool usage errors still hinder their reliability. We introduce ToolCritic, a diagnostic framework that evaluates and improves LLM behavior in multi-turn, tool-augmented dialogues. ToolCritic detects eight distinct error types specific to tool-calling (e.g., premature invocation, argument misalignment, and misinterpretation of tool outputs) and provides targeted feedback to the main LLM. The main LLM, assumed to have strong reasoning, task understanding and orchestration capabilities, then revises its response based on ToolCritic's feedback. We systematically define these error categories and construct a synthetic dataset to train ToolCritic. Experimental results on the Schema-Guided Dialogue (SGD) dataset demonstrate that ToolCritic improves tool-calling accuracy by up to 13% over baselines, including zero-shot prompting and self-correction techniques. This represents a promising step toward more robust LLM integration with external tools in real-world dialogue applications.
- Abstract(参考訳): ツール強化された大規模言語モデル(LLM)は、現実のアプリケーションにますます採用されているが、ツールの使用エラーによってその信頼性が損なわれている。
マルチターン・ツール拡張対話におけるLCM動作の評価と改善を行う診断フレームワークであるToolCriticを紹介する。
ToolCriticは、ツール呼び出しに特有の8つの異なるエラータイプ(例えば、未熟な呼び出し、引数の修正、ツール出力の誤解釈)を検出し、メインのLLMにターゲットのフィードバックを提供する。
主要なLCMは、強力な推論、タスク理解、オーケストレーション機能を持っていると仮定され、その後、ToolCriticのフィードバックに基づいてそのレスポンスを更新する。
これらのエラーカテゴリを体系的に定義し、ToolCriticをトレーニングするための合成データセットを構築します。
Schema-Guided Dialogue (SGD)データセットの実験結果は、ツールクライブがゼロショットプロンプトや自己補正技術を含むベースライン上でツール呼び出し精度を最大13%向上することを示した。
これは、現実世界の対話アプリケーションにおける外部ツールとのより堅牢なLLM統合に向けた、有望なステップである。
関連論文リスト
- Improving Large Language Models Function Calling and Interpretability via Guided-Structured Templates [56.73907811047611]
大規模言語モデル(LLM)は強力な推論とツール使用能力を示している。
LLMは、誤ったパラメータ化、悪いツールの選択、ユーザーの意図の誤解釈によって、現実世界のツールインタラクションで失敗することが多い。
我々は、構造化推論テンプレートを利用して、関数呼び出しを生成するためのより故意なステップバイステップ命令を通してLCMをガイドするカリキュラムに着想を得たフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:55:14Z) - CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios [30.20881816731553]
大規模な言語モデルが外部ツールを利用する能力により、ますます多様なタスクに対処できるようになった。
タスクがより複雑で長期的になると、複雑なツール利用プロセスが様々な予期せぬエラーを引き起こす可能性がある。
このようなエラーの特定、診断、回復など、効果的に対処する方法が、ツール学習を進める上で重要な研究方向として現れている。
論文 参考訳(メタデータ) (2025-06-11T17:59:18Z) - Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。
具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。
第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文 参考訳(メタデータ) (2025-06-05T04:35:49Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Reducing Tool Hallucination via Reliability Alignment [31.761771794788462]
大きな言語モデル(LLM)は、言語生成を超えて、外部ツールと対話し、自動化と現実世界のアプリケーションを可能にする機能を拡張した。
モデルが不適切なツールを選択するか、それらを誤用するツール幻覚は、誤ったタスクの実行、計算コストの増大、システムの信頼性の低下につながる重要な課題を引き起こす。
RelyToolBenchを導入し、特殊なテストケースと新しいメトリクスを統合し、幻覚を意識したタスクの成功と効率を評価する。
最後に、信頼性アライメントフレームワークであるRelignを提案する。このフレームワークは、ツール使用のアクション空間を拡張して、不決定なアクションを含むようにし、LCMがツールの使用を遅らせたり、明確化を求めたり、ツールの選択を調整することを可能にする。
論文 参考訳(メタデータ) (2024-12-05T13:10:54Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。