論文の概要: Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch
- arxiv url: http://arxiv.org/abs/2511.01934v1
- Date: Sun, 02 Nov 2025 16:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.59946
- Title: Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch
- Title(参考訳): ツールゼロ:スクラッチからの純RLによるツール拡張LDMのトレーニング
- Authors: Yirong Zeng, Xiao Ding, Yutai Hou, Yuxian Wang, Li Du, Juyi Dai, Qiuyang Ding, Duyu Tang, Dandan Tu, Weiwen Liu, Bing Qin, Ting Liu,
- Abstract要約: ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 63.40752011615843
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training tool-augmented LLMs has emerged as a promising approach to enhancing language models' capabilities for complex tasks. The current supervised fine-tuning paradigm relies on constructing extensive domain-specific datasets to train models. However, this approach often struggles to generalize effectively to unfamiliar or intricate tool-use scenarios. Recently, reinforcement learning (RL) paradigm can endow LLMs with superior reasoning and generalization abilities. In this work, we address a key question: Can the pure RL be used to effectively elicit a model's intrinsic reasoning capabilities and enhance the tool-agnostic generalization? We propose a dynamic generalization-guided reward design for rule-based RL, which progressively shifts rewards from exploratory to exploitative tool-use patterns. Based on this design, we introduce the Tool-Zero series models. These models are trained to enable LLMs to autonomously utilize general tools by directly scaling up RL from Zero models (i.e., base models without post-training). Experimental results demonstrate that our models achieve over 7% performance improvement compared to both SFT and RL-with-SFT models under the same experimental settings. These gains are consistently replicated across cross-dataset and intra-dataset evaluations, validating the effectiveness and robustness of our methods.
- Abstract(参考訳): 複雑なタスクに対する言語モデルの能力を向上するための、有望なアプローチとして、ツール強化 LLMs が登場した。
現在の教師付き微調整パラダイムは、モデルをトレーニングするための広範なドメイン固有のデータセットの構築に依存している。
しかし、このアプローチはしばしば、慣れていない、あるいは複雑なツール使用シナリオに効果的に一般化するのに苦労する。
近年、強化学習(RL)パラダイムは、推論能力と一般化能力に優れたLLMを育むことができる。
純粋なRLは、モデルの本質的な推論能力を効果的に引き出すことができ、ツールに依存しない一般化を強化することができるか?
本稿では,ルールベースRLに対する動的一般化誘導報酬設計を提案する。
この設計に基づいて,ツールゼロシリーズモデルを紹介する。
これらのモデルは、ゼロモデルからRLを直接スケールアップすることで、LLMが汎用ツールを自律的に活用できるように訓練されている(つまり、後トレーニングなしのベースモデル)。
実験結果から,SFTモデルとRL-with-SFTモデルとでは,同じ条件下で7%以上の性能向上が得られた。
これらの利得は、クロスデータセットとイントラデータセット評価の間で一貫して再現され、我々の手法の有効性とロバスト性を検証する。
関連論文リスト
- Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning [93.30252692375886]
ルールベースの強化学習は、大きな言語モデルにおけるツールコールを強化するために使用することができる。
ツールN1-7B/14Bはいくつかの主要なベンチマークでGPT-4oを上回った。
論文 参考訳(メタデータ) (2025-04-25T02:55:21Z) - ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。
近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。
本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-04-16T21:45:32Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。