論文の概要: LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls
- arxiv url: http://arxiv.org/abs/2511.09148v2
- Date: Tue, 18 Nov 2025 07:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.5745
- Title: LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls
- Title(参考訳): LoopTool:ロバストなLLMツールコールのためのデータトレーニングループのクローン
- Authors: Kangning Zhang, Wenxiang Jiao, Kounianhua Du, Yuan Lu, Weiwen Liu, Weinan Zhang, Yong Yu,
- Abstract要約: LoopToolは、完全に自動化され、モデル対応のデータ進化フレームワークである。
3つの相乗的モジュールを通して、データとモデルを反復的に洗練する。
実験によると、LoopToolでトレーニングした8Bモデルは、32Bデータジェネレータを大幅に上回っている。
- 参考スコア(独自算出の注目度): 46.34510189812439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Augmenting Large Language Models (LLMs) with external tools enables them to execute complex, multi-step tasks. However, tool learning is hampered by the static synthetic data pipelines where data generation and model training are executed as two separate, non-interactive processes. This approach fails to adaptively focus on a model's specific weaknesses and allows noisy labels to persist, degrading training efficiency. We introduce LoopTool, a fully automated, model-aware data evolution framework that closes this loop by tightly integrating data synthesis and model training. LoopTool iteratively refines both the data and the model through three synergistic modules: (1) Greedy Capability Probing (GCP) diagnoses the model's mastered and failed capabilities; (2) Judgement-Guided Label Verification (JGLV) uses an open-source judge model to find and correct annotation errors, progressively purifying the dataset; and (3) Error-Driven Data Expansion (EDDE) generates new, challenging samples based on identified failures. This closed-loop process operates within a cost-effective, open-source ecosystem, eliminating dependence on expensive closed-source APIs. Experiments show that our 8B model trained with LoopTool significantly surpasses its 32B data generator and achieves new state-of-the-art results on the BFCL-v3 and ACEBench benchmarks for its scale. Our work demonstrates that closed-loop, self-refining data pipelines can dramatically enhance the tool-use capabilities of LLMs.
- Abstract(参考訳): LLM(Large Language Models)を外部ツールで拡張することで、複雑なマルチステップタスクを実行できる。
しかし、ツール学習は静的な合成データパイプラインによって妨げられ、データ生成とモデルトレーニングは2つの独立した非対話的プロセスとして実行される。
このアプローチは、モデルの特定の弱点に適応的に焦点を合わせることができず、ノイズの多いラベルを持続させ、トレーニング効率を低下させます。
LoopToolは、完全に自動化されたモデル対応のデータ進化フレームワークで、データ合成とモデルトレーニングを緊密に統合することで、このループを閉じます。
LoopToolは3つの相乗的モジュールを通じて、データとモデルを反復的に洗練する。 1) Greedy Capability Probing (GCP)は、モデルのマスターされた機能とフェールした機能を診断する; (2) Judgement-Guided Label Verification (JGLV)は、アノテーションエラーを見つけて修正するためにオープンソースの判断モデルを使用し、データセットを徐々に浄化する; 3) Error-Driven Data Expansion (EDDE)は、識別された障害に基づいて、新しい、挑戦的なサンプルを生成する。
このクローズドループプロセスはコスト効率のよいオープンソースエコシステム内で動作し、高価なクローズドソースAPIへの依存を排除している。
LoopToolでトレーニングした8Bモデルは,32Bデータジェネレータを大幅に上回り,BFCL-v3とACEBenchベンチマークの新たな最先端結果を実現している。
我々の研究は、LLMのツール使用能力を劇的に向上させることができるクローズドループ、自己精製データパイプラインを実証している。
関連論文リスト
- From Failure to Mastery: Generating Hard Samples for Tool-use Agents [40.331752086107265]
HardGenは、検証可能な推論を備えたハードツール使用トレーニングサンプルを生成するように設計された自動エージェントパイプラインである。
高度なツールとハードクエリにより、検証可能な複雑なChain-of-Thought(CoT)の生成が可能になる
私たちのコード、モデル、データセットは、将来の研究を促進するためにオープンソース化されます。
論文 参考訳(メタデータ) (2026-01-04T11:56:33Z) - Close the Loop: Synthesizing Infinite Tool-Use Data via Multi-Agent Role-Playing [16.839489120513505]
InfToolは3つの協調エージェントを編成し、単一のターン呼び出しから複雑なマルチステップのゲートコールにまたがる多様な検証されたトラジェクトリを生成する。
InfToolは、ベース32Bモデルを19.8%から70.9%の精度(+258%)に変換し、Claude-Opusより10倍大きく、競合するClaude-Opusを上回ります。
論文 参考訳(メタデータ) (2025-12-29T17:12:39Z) - ToolForge: A Data Synthesis Pipeline for Multi-Hop Search without Real-World APIs [40.70833390513187]
本稿では,強力な実世界のツールコール性能を実現する自動合成フレームワークであるToolForgeを紹介する。
ToolForgeは、マルチホップ検索シナリオ用に設計された大規模ツール学習データを合成する。
実験結果から,合成データを用いてトレーニングした場合,8Bパラメータのみのモデルが複数のベンチマークでGPT-4oを上回っていることがわかった。
論文 参考訳(メタデータ) (2025-12-18T04:06:26Z) - Procedural Environment Generation for Tool-Use Agents [55.10427063893754]
我々はRandomWorldを紹介した。これは対話型ツールと合成ツール利用データの手続き的生成のためのパイプラインである。
我々は,SFTとRLによるRandomWorldの合成データによるモデル調整により,様々なツール使用ベンチマークが改良されたことを示す。
論文 参考訳(メタデータ) (2025-05-21T14:10:06Z) - Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [56.31110409360567]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。