論文の概要: Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning
- arxiv url: http://arxiv.org/abs/2506.04625v1
- Date: Thu, 05 Jun 2025 04:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.533416
- Title: Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning
- Title(参考訳): メタ検証とリフレクション学習によるツール強化大規模言語モデルの構築
- Authors: Zhiyuan Ma, Jiayu Liu, Xianzhen Luo, Zhenya Huang, Qingfu Zhu, Wanxiang Che,
- Abstract要約: 本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。
具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。
第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
- 参考スコア(独自算出の注目度): 63.2198957755528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empowering large language models (LLMs) with effective tool utilization capabilities is crucial for enabling AI agents to solve complex problems. However, current models face two major limitations: (1) unreliable tool planning and invocation due to low-quality instruction datasets (e.g., widespread hallucinated API calls), and (2) weak tool reflection abilities (over 90% of errors cannot be corrected) resulting from static imitation learning. To address these critical limitations, we propose Tool-MVR, a novel Tool-Augmented LLM that achieves comprehensive System 2 reasoning through two key innovations. Specifically, we first introduce Multi-Agent Meta-Verification (MAMV), a systematic pipeline that rigorously validates APIs, queries, and reasoning trajectories to construct ToolBench-V, a new high-quality instruction dataset that addresses the limitation of unreliable tool planning and invocation. Second, we propose Exploration-based Reflection Learning (EXPLORE), which enhances tool reflection capabilities by leveraging tool feedback through a dynamic "Error -> Reflection -> Correction" learning paradigm, resulting in our reflection dataset ToolBench-R and addressing the critical weakness in tool reflection. Finally, we obtain Tool-MVR by finetuning open-source LLMs (e.g., Qwen-7B) on both ToolBench-V and ToolBench-R. Our experiments demonstrate that Tool-MVR achieves state-of-the-art performance on StableToolBench, surpassing both ToolLLM (by 23.9%) and GPT-4 (by 15.3%) while reducing API calls by 31.4%, with strong generalization capabilities across unseen tools and scenarios. Additionally, on our proposed RefineToolBench, the first benchmark specifically designed to evaluate tool reflection capabilities, Tool-MVR achieves a 58.9% error correction rate, significantly outperforming ToolLLM's 9.1%.
- Abstract(参考訳): 大規模な言語モデル(LLM)を効果的なツール利用能力で強化することは、AIエージェントが複雑な問題を解決するために不可欠である。
しかし、現在のモデルでは、(1)低品質な命令データセット(例えば、広汎な幻覚的API呼び出し)による信頼性の低いツール計画と実行、(2)静的な模倣学習による弱いツールリフレクション能力(90%以上のエラーは修正できない)の2つの大きな制限に直面している。
これらの限界に対処するために,2つの重要な革新を通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。
具体的には、まずMulti-Agent Meta-Verification(MAMV)という、信頼性の低いツール計画と実行の制限に対処する、新しい高品質な命令データセットであるToolBench-Vを構築するための、API、クエリ、推論のトラジェクトリを厳格に検証する体系的なパイプラインを紹介します。
第2に,探索に基づくリフレクション学習(EXPLORE)を提案し,ダイナミックな"エラー ->リフレクション -> 補正"学習パラダイムを通じてツールフィードバックを活用することでツールリフレクション機能の向上を実現し,リフレクションデータセットのToolBench-Rとツールリフレクションの重大な弱点に対処する。
最後に,ToolBench-V とToolBench-R の両方でオープンソース LLM (eg , Qwen-7B) を微調整することで,Tool-MVR を得る。
我々の実験では、ツール-MVRがStableToolBenchの最先端のパフォーマンスを達成し、ツールLLM(23.9%)とGPT-4(15.3%)を上回り、API呼び出しを31.4%削減し、見えないツールやシナリオをまたいだ強力な一般化機能を実現している。
さらに、ツールリフレクション機能を評価するために設計された最初のベンチマークであるRefineToolBenchでは、ツール-MVRが58.9%のエラー修正率を獲得し、ツールLLMの9.1%を大きく上回っている。
関連論文リスト
- Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Learning Evolving Tools for Large Language Models [44.25796648300785]
ツール学習により、大きな言語モデル(LLM)が外部ツールやAPIと対話できるようになる。
既存の研究は主に静的環境に焦点を当てており、この問題を見落としている。
ツール変数に対するLLMの適応性と反射性を向上する新しいフレームワークであるToolEVOを提案する。
論文 参考訳(メタデータ) (2024-10-09T07:14:45Z) - Enhancing Tool Retrieval with Iterative Feedback from Large Language Models [9.588592185027455]
大規模言語モデル(LLM)は、コンテキスト内学習や微調整を通じて、ある程度のツールを効果的に扱うことができる。
現実のシナリオでは、ツールの数は一般的に広範囲で不規則に更新され、専用のツール検索コンポーネントの必要性を強調している。
本稿では,大規模言語モデルからの反復的なフィードバックでツール検索を強化することを提案する。
論文 参考訳(メタデータ) (2024-06-25T11:12:01Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。
ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文 参考訳(メタデータ) (2023-05-26T17:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。