Fugu-MT 論文翻訳(概要): Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data

論文の概要: Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data

arxiv url: http://arxiv.org/abs/2602.21320v1
Date: Tue, 24 Feb 2026 19:41:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.587891
Title: Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data
Title（参考訳）: Tool-R0:ゼロデータからのツール学習のための自己進化型LLMエージェント
Authors: Emre Can Acikgoz, Cheng Qian, Jonas Hübotter, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur,
Abstract要約: 大規模言語モデル(LLM)は、複雑なタスクを解決するツールを使用する自律エージェントの基盤になりつつある。本稿では,汎用ツールコールエージェントをセルフプレイRLでスクラッチからトレーニングするためのツール-R0フレームワークを提案する。我々の研究は、共進化、カリキュラムのダイナミクス、スケーリングの振る舞いを分析することで、自己プレイのLCMエージェントに関する経験的な洞察を提供する。
参考スコア（独自算出の注目度）: 49.315842374696295
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are becoming the foundation for autonomous agents that can use tools to solve complex tasks. Reinforcement learning (RL) has emerged as a common approach for injecting such agentic capabilities, but typically under tightly controlled training setups. It often depends on carefully constructed task-solution pairs and substantial human supervision, which creates a fundamental obstacle to open-ended self-evolution toward superintelligent systems. In this paper, we propose Tool-R0 framework for training general purpose tool-calling agents from scratch with self-play RL, under a zero-data assumption. Initialized from the same base LLM, Tool-R0 co-evolves a Generator and a Solver with complementary rewards: one proposes targeted challenging tasks at the other's competence frontier and the other learns to solve them with real-world tool calls. This creates a self-evolving cycle that requires no pre-existing tasks or datasets. Evaluation on different tool-use benchmarks show that Tool-R0 yields 92.5 relative improvement over the base model and surpasses fully supervised tool-calling baselines under the same setting. Our work further provides empirical insights into self-play LLM agents by analyzing co-evolution, curriculum dynamics, and scaling behavior.
Abstract（参考訳）: 大規模言語モデル(LLM)は、複雑なタスクを解決するツールを使用する自律エージェントの基盤になりつつある。強化学習(Reinforcement Learning, RL)は、エージェント機能を注入する一般的なアプローチとして登場したが、通常は厳格に制御されたトレーニング設定の下で行われる。それはしばしば、注意深く構築されたタスク解決ペアと、実質的な人間の監督に依存し、超知能システムに対するオープンエンドな自己進化の根本的な障害を生み出します。本稿では,ゼロデータ仮定の下で,汎用ツールコールエージェントをスクラッチからセルフプレイRLで訓練するためのツール-R0フレームワークを提案する。同じベースLLMから初期化され、Tool-R0はジェネレータとソルバーを共進化させ、補完的な報酬を与える。これにより、既存のタスクやデータセットを必要としない自己進化サイクルが生成される。異なるツール使用ベンチマークの評価によると、ツールR0はベースモデルに対して92.5の相対的な改善をもたらし、同じ設定で完全に管理されたツール呼び出しベースラインを超えている。我々の研究は、共進化、カリキュラムのダイナミクス、スケーリングの振る舞いを分析することで、自己プレイのLCMエージェントに関する経験的な洞察を提供する。

関連論文リスト

Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning [16.12114923351562]
エージェントをツールユーザからツールクリエータに変換する,トレーニング不要のフレームワークを提案する。このアプローチは推論の経験を抽出し、再利用可能な資産に蒸留する。ツールライブラリをメンテナンスするためのメモリ統合機構も導入する。
論文参考訳（メタデータ） (2026-02-02T11:37:45Z)
Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.70211451226835]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。 Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文参考訳（メタデータ） (2025-11-20T05:01:57Z)
Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文参考訳（メタデータ） (2025-11-02T16:33:45Z)
Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use [50.02614257515131]
大規模言語モデル(LLM)は、言語理解と推論において強力な能力を示している。本稿では,LLMの汎用的,構成的,多段階的なツール使用を可能にする強化学習フレームワークであるTool-R1を提案する。
論文参考訳（メタデータ） (2025-09-16T09:22:21Z)
SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文参考訳（メタデータ） (2025-09-08T02:07:09Z)
R-Zero: Self-Evolving Reasoning LLM from Zero Data [47.8125954446991]
自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。 R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
論文参考訳（メタデータ） (2025-08-07T03:38:16Z)
AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning [17.086082843274003]
大言語モデル(LLM)は、強力な大共振モデル(LRM)へと進化する Tool-Integrated Reasoning (TIR)は、外部ツールを組み込むことで、その機能をさらに拡張する。ツールを適応的に選択する人間の能力に触発されて,強化学習フレームワークであるAutoTIRを紹介した。
論文参考訳（メタデータ） (2025-07-29T14:12:28Z)
AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents [25.735754822676277]
言語モデル(LM)エージェントは、自律的にタスクを完了させる能力において、大きな注目を集めている。強化学習(RL)は、推論や事実性など、LMの能力を高めるために研究されている。 AgentFlyは、多様なRLアルゴリズムでLMエージェントを強化するために設計されたスケーラブルでエージェント-RLフレームワークである。
論文参考訳（メタデータ） (2025-07-20T10:22:36Z)
Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning [63.31585771716123]
大言語モデル(LLM)は、大規模強化学習(RL)を通じて顕著な推論能力を示した。ステップワイズ推論中に複数の外部ツールを自律的に呼び出すLLベースのフレームワークであるTool-Starを紹介する。 Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方に体系的な設計を取り入れている。
論文参考訳（メタデータ） (2025-05-22T09:00:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。