論文の概要: Close the Loop: Synthesizing Infinite Tool-Use Data via Multi-Agent Role-Playing
- arxiv url: http://arxiv.org/abs/2512.23611v1
- Date: Mon, 29 Dec 2025 17:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.594724
- Title: Close the Loop: Synthesizing Infinite Tool-Use Data via Multi-Agent Role-Playing
- Title(参考訳): ループを閉じる:マルチエージェントロールプレイングによる無限ツール使用データの合成
- Authors: Yuwen Li, Wei Zhang, Zelong Huang, Mason Yang, Jiajun Wu, Shawn Guo, Huahao Hu, Lingyi Sun, Jian Yang, Mingjie Tang, Byran Dai,
- Abstract要約: InfToolは3つの協調エージェントを編成し、単一のターン呼び出しから複雑なマルチステップのゲートコールにまたがる多様な検証されたトラジェクトリを生成する。
InfToolは、ベース32Bモデルを19.8%から70.9%の精度(+258%)に変換し、Claude-Opusより10倍大きく、競合するClaude-Opusを上回ります。
- 参考スコア(独自算出の注目度): 16.839489120513505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling Large Language Models (LLMs) to reliably invoke external tools remains a critical bottleneck for autonomous agents. Existing approaches suffer from three fundamental challenges: expensive human annotation for high-quality trajectories, poor generalization to unseen tools, and quality ceilings inherent in single-model synthesis that perpetuate biases and coverage gaps. We introduce InfTool, a fully autonomous framework that breaks these barriers through self-evolving multi-agent synthesis. Given only raw API specifications, InfTool orchestrates three collaborative agents (User Simulator, Tool-Calling Assistant, and MCP Server) to generate diverse, verified trajectories spanning single-turn calls to complex multi-step workflows. The framework establishes a closed loop: synthesized data trains the model via Group Relative Policy Optimization (GRPO) with gated rewards, the improved model generates higher-quality data targeting capability gaps, and this cycle iterates without human intervention. Experiments on the Berkeley Function-Calling Leaderboard (BFCL) demonstrate that InfTool transforms a base 32B model from 19.8% to 70.9% accuracy (+258%), surpassing models 10x larger and rivaling Claude-Opus, and entirely from synthetic data without human annotation.
- Abstract(参考訳): 外部ツールを確実に呼び出すための大規模言語モデル(LLM)の導入は、自律エージェントにとって重要なボトルネックである。
既存のアプローチには、3つの根本的な課題がある: 高品質な軌跡に対する高価な人間のアノテーション、見えないツールへの一般化の低さ、バイアスとカバレッジギャップを持続する単一モデル合成に固有の品質天井。
InfToolは、自己進化型マルチエージェント合成によってこれらの障壁を破る、完全に自律的なフレームワークである。
生のAPI仕様のみを前提として、InfToolは3つの協調エージェント(User Simulator、Tool-Calling Assistant、MSP Server)を編成し、複雑なマルチステップワークフローへのシングルターン呼び出しにまたがる多彩で検証されたトラジェクトリを生成する。
このフレームワークはクローズドループを確立している: 合成されたデータは、グループ相対ポリシー最適化(GRPO)を介してゲート報酬でモデルを訓練し、改良されたモデルは、能力ギャップをターゲットとした高品質なデータを生成し、このサイクルは人間の介入なしに反復する。
バークレー・ファンクション・カリング・リーダーボード(BFCL)の実験では、InfToolはベース32Bモデルを19.8%から70.9%の精度(+258%)に変換し、Claude-Opusより10倍大きく競合し、人間のアノテーションのない合成データから完全に変換している。
関連論文リスト
- ToolMind Technical Report: A Large-Scale, Reasoning-Enhanced Tool-Use Dataset [43.45582911794623]
我々は,160kの合成データインスタンスを備えた高品質なツールエージェントデータセットであるToolMindを紹介した。
我々は, 高精度なターンレベルのフィルタリングを用いて, 誤りや不適切なステップを除去する。
ToolMindで微調整されたモデルは、いくつかのベンチマークでベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-11-12T13:01:23Z) - LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls [46.34510189812439]
LoopToolは、完全に自動化され、モデル対応のデータ進化フレームワークである。
3つの相乗的モジュールを通して、データとモデルを反復的に洗練する。
実験によると、LoopToolでトレーニングした8Bモデルは、32Bデータジェネレータを大幅に上回っている。
論文 参考訳(メタデータ) (2025-11-12T09:34:39Z) - Klear-AgentForge: Forging Agentic Intelligence through Posttraining Scaling [46.593200463657645]
我々は,Klear-Qwen3-AgentForgeという高性能エージェントモデルを学習するための,包括的で完全なオープンソースパイプラインを提案する。
合成データを用いた効率的な教師付き微調整(SFT)とマルチターン強化学習(RL)を併用し,多種多様なエージェントタスクの可能性を解き放つ。
論文 参考訳(メタデータ) (2025-11-08T09:47:27Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling [39.45732462111156]
本稿では,FunReason-MTを提案する。FunReason-MTは,実世界のマルチターンツール利用のための新しいデータ合成フレームワークである。
FunReason-MTは、環境-APIグラフ相互作用を用いて、マルチターンFCデータの複雑さ障壁を解決する。
FunReason-MT生成データに基づいて構築された4Bモデルは、同等サイズのモデル間で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-28T17:15:26Z) - APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。
xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。
我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文 参考訳(メタデータ) (2025-04-04T17:13:57Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。