論文の概要: CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios
- arxiv url: http://arxiv.org/abs/2506.13977v1
- Date: Wed, 11 Jun 2025 17:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.235236
- Title: CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios
- Title(参考訳): CRITICTOOL: ツールカーリングエラーシナリオにおける大規模言語モデルの自己批判能力の評価
- Authors: Shiting Huang, Zhen Fang, Zehui Chen, Siyu Yuan, Junjie Ye, Yu Zeng, Lin Chen, Qi Mao, Feng Zhao,
- Abstract要約: 大規模な言語モデルが外部ツールを利用する能力により、ますます多様なタスクに対処できるようになった。
タスクがより複雑で長期的になると、複雑なツール利用プロセスが様々な予期せぬエラーを引き起こす可能性がある。
このようなエラーの特定、診断、回復など、効果的に対処する方法が、ツール学習を進める上で重要な研究方向として現れている。
- 参考スコア(独自算出の注目度): 30.20881816731553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of large language models (LLMs) to utilize external tools has enabled them to tackle an increasingly diverse range of tasks. However, as the tasks become more complex and long-horizon, the intricate tool utilization process may trigger various unexpected errors. Therefore, how to effectively handle such errors, including identifying, diagnosing, and recovering from them, has emerged as a key research direction for advancing tool learning. In this work, we first extensively analyze the types of errors encountered during the function-calling process on several competitive tool evaluation benchmarks. Based on it, we introduce CRITICTOOL, a comprehensive critique evaluation benchmark specialized for tool learning. Building upon a novel evolutionary strategy for dataset construction, CRITICTOOL holds diverse tool-use errors with varying complexities, which better reflects real-world scenarios. We conduct extensive experiments on CRITICTOOL, and validate the generalization and effectiveness of our constructed benchmark strategy. We also provide an in-depth analysis of the tool reflection ability on various LLMs, offering a new perspective on the field of tool learning in LLMs. The code is available at \href{https://github.com/Shellorley0513/CriticTool}{https://github.com/Shellorley0513/CriticTool}.
- Abstract(参考訳): 大規模な言語モデル(LLM)が外部ツールを活用することで、ますます多様なタスクに対処できるようになった。
しかし、タスクがより複雑で長期化するにつれて、複雑なツール利用プロセスが様々な予期せぬエラーを引き起こす可能性がある。
そこで, ツール学習の進む方向として, 診断, 診断, 回復などのエラーを効果的に処理する方法が注目されている。
本研究では,いくつかの競合ツール評価ベンチマークにおいて,関数呼び出しプロセス中に発生するエラーの種類を広範囲に分析する。
ツール学習に特化した総合的批評評価ベンチマークであるCRITICTOOLを紹介する。
CRITICTOOLは、データセット構築のための新たな進化戦略に基づいて、さまざまな複雑なツール使用エラーを発生させ、現実のシナリオをよりよく反映する。
我々はCRITICTOOLに関する広範な実験を行い、構築したベンチマーク戦略の一般化と有効性を検証する。
また,LLMにおけるツール・リフレクション能力の詳細な分析を行い,LLMにおけるツール・ラーニングの分野に関する新たな視点を提供する。
コードは \href{https://github.com/Shellorley0513/CriticTool}{https://github.com/Shellorley0513/CriticTool} で公開されている。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions [60.733557487886635]
本稿では,大規模言語モデルと外部ツールとの包括的ギャップを埋めることに焦点を当てる。
動的精錬ツールの文書化を目的とした新しいフレームワーク DRAFT を提案する。
この方法論は、3つの異なる学習フェーズからなる革新的な試行錯誤アプローチに基づいている。
論文 参考訳(メタデータ) (2024-10-10T17:58:44Z) - LLM With Tools: A Survey [0.0]
本稿では,LCMに外部ツールの使用を教える領域における方法論,問題点,展開について述べる。
ユーザ命令を実行可能なプランにマッピングする一連の関数によってガイドされるツール統合のための標準化パラダイムを導入する。
調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。
論文 参考訳(メタデータ) (2024-09-24T14:08:11Z) - What Affects the Stability of Tool Learning? An Empirical Study on the Robustness of Tool Learning Frameworks [33.51887014808227]
本稿では,ツール学習フレームワークの性能に及ぼす内部要因と外部要因の影響について検討する。
今後の研究には、LCMが試行錯誤の増加から大きな恩恵を受けることができるという観察など、洞察に富んだ結論がいくつか見出される。
論文 参考訳(メタデータ) (2024-07-03T11:06:05Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。