論文の概要: Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data
- arxiv url: http://arxiv.org/abs/2602.21320v1
- Date: Tue, 24 Feb 2026 19:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.587891
- Title: Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data
- Title(参考訳): Tool-R0:ゼロデータからのツール学習のための自己進化型LLMエージェント
- Authors: Emre Can Acikgoz, Cheng Qian, Jonas Hübotter, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur,
- Abstract要約: 大規模言語モデル(LLM)は、複雑なタスクを解決するツールを使用する自律エージェントの基盤になりつつある。
本稿では,汎用ツールコールエージェントをセルフプレイRLでスクラッチからトレーニングするためのツール-R0フレームワークを提案する。
我々の研究は、共進化、カリキュラムのダイナミクス、スケーリングの振る舞いを分析することで、自己プレイのLCMエージェントに関する経験的な洞察を提供する。
- 参考スコア(独自算出の注目度): 49.315842374696295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are becoming the foundation for autonomous agents that can use tools to solve complex tasks. Reinforcement learning (RL) has emerged as a common approach for injecting such agentic capabilities, but typically under tightly controlled training setups. It often depends on carefully constructed task-solution pairs and substantial human supervision, which creates a fundamental obstacle to open-ended self-evolution toward superintelligent systems. In this paper, we propose Tool-R0 framework for training general purpose tool-calling agents from scratch with self-play RL, under a zero-data assumption. Initialized from the same base LLM, Tool-R0 co-evolves a Generator and a Solver with complementary rewards: one proposes targeted challenging tasks at the other's competence frontier and the other learns to solve them with real-world tool calls. This creates a self-evolving cycle that requires no pre-existing tasks or datasets. Evaluation on different tool-use benchmarks show that Tool-R0 yields 92.5 relative improvement over the base model and surpasses fully supervised tool-calling baselines under the same setting. Our work further provides empirical insights into self-play LLM agents by analyzing co-evolution, curriculum dynamics, and scaling behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑なタスクを解決するツールを使用する自律エージェントの基盤になりつつある。
強化学習(Reinforcement Learning, RL)は、エージェント機能を注入する一般的なアプローチとして登場したが、通常は厳格に制御されたトレーニング設定の下で行われる。
それはしばしば、注意深く構築されたタスク解決ペアと、実質的な人間の監督に依存し、超知能システムに対するオープンエンドな自己進化の根本的な障害を生み出します。
本稿では,ゼロデータ仮定の下で,汎用ツールコールエージェントをスクラッチからセルフプレイRLで訓練するためのツール-R0フレームワークを提案する。
同じベースLLMから初期化され、Tool-R0はジェネレータとソルバーを共進化させ、補完的な報酬を与える。
これにより、既存のタスクやデータセットを必要としない自己進化サイクルが生成される。
異なるツール使用ベンチマークの評価によると、ツールR0はベースモデルに対して92.5の相対的な改善をもたらし、同じ設定で完全に管理されたツール呼び出しベースラインを超えている。
我々の研究は、共進化、カリキュラムのダイナミクス、スケーリングの振る舞いを分析することで、自己プレイのLCMエージェントに関する経験的な洞察を提供する。
関連論文リスト
- Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning [16.12114923351562]
エージェントをツールユーザからツールクリエータに変換する,トレーニング不要のフレームワークを提案する。
このアプローチは推論の経験を抽出し、再利用可能な資産に蒸留する。
ツールライブラリをメンテナンスするためのメモリ統合機構も導入する。
論文 参考訳(メタデータ) (2026-02-02T11:37:45Z) - Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.70211451226835]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。
我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。
Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文 参考訳(メタデータ) (2025-11-20T05:01:57Z) - Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-02T16:33:45Z) - Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use [50.02614257515131]
大規模言語モデル(LLM)は、言語理解と推論において強力な能力を示している。
本稿では,LLMの汎用的,構成的,多段階的なツール使用を可能にする強化学習フレームワークであるTool-R1を提案する。
論文 参考訳(メタデータ) (2025-09-16T09:22:21Z) - R-Zero: Self-Evolving Reasoning LLM from Zero Data [47.8125954446991]
自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。
このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。
R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
論文 参考訳(メタデータ) (2025-08-07T03:38:16Z) - AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents [25.735754822676277]
言語モデル(LM)エージェントは、自律的にタスクを完了させる能力において、大きな注目を集めている。
強化学習(RL)は、推論や事実性など、LMの能力を高めるために研究されている。
AgentFlyは、多様なRLアルゴリズムでLMエージェントを強化するために設計されたスケーラブルでエージェント-RLフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T10:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。