論文の概要: ToRL: Scaling Tool-Integrated RL
- arxiv url: http://arxiv.org/abs/2503.23383v1
- Date: Sun, 30 Mar 2025 10:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.096057
- Title: ToRL: Scaling Tool-Integrated RL
- Title(参考訳): ToRL: Scaling Tool-Integrated RL
- Authors: Xuefeng Li, Haoyang Zou, Pengfei Liu,
- Abstract要約: ToRLは、計算ツールを自律的に使用するために、大規模言語モデルをトレーニングするためのフレームワークである。
ToRLは、モデルがツール使用のための最適な戦略を探索し、発見することを可能にする。
Qwen2.5-Mathモデルによる実験では大きな改善が見られた。
- 参考スコア(独自算出の注目度): 25.477841726836836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ToRL (Tool-Integrated Reinforcement Learning), a framework for training large language models (LLMs) to autonomously use computational tools via reinforcement learning. Unlike supervised fine-tuning, ToRL allows models to explore and discover optimal strategies for tool use. Experiments with Qwen2.5-Math models show significant improvements: ToRL-7B reaches 43.3\% accuracy on AIME~24, surpassing reinforcement learning without tool integration by 14\% and the best existing Tool-Integrated Reasoning (TIR) model by 17\%. Further analysis reveals emergent behaviors such as strategic tool invocation, self-regulation of ineffective code, and dynamic adaptation between computational and analytical reasoning, all arising purely through reward-driven learning.
- Abstract(参考訳): ToRL(Tool-Integrated Reinforcement Learning)は,大規模言語モデル(LLM)を学習するためのフレームワークである。
教師付き微調整とは異なり、ToRLはモデルに対してツール使用のための最適な戦略を探索し発見することを可能にする。
Qwen2.5-Math モデルによる実験では、ToRL-7B は AIME~24 で43.3 % の精度に達し、ツール統合なしで強化学習を14 %、既存のツール統合推論(TIR)モデルで 17 % の精度で達成された。
さらなる分析により、戦略ツールの実行、非効率なコードの自己規制、計算と分析の推論の動的適応といった創発的な振る舞いが明らかにされる。
関連論文リスト
- OTC: Optimal Tool Calls via Reinforcement Learning [87.28134636548705]
ツール統合報酬は,正しさとツール効率を共同で考慮し,高いツール生産性を向上する。
このアプローチでは,ツールコールを最大73.1%削減し,ツールの生産性を最大229.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。
近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。
本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-04-16T21:45:32Z) - ReTool: Reinforcement Learning for Strategic Tool Use in LLMs [27.07998056454784]
ReToolは、ツール統合学習によるロングフォーム推論を強化する。
モデルは400のトレーニングステップで67%の精度を達成する。
注目すべきは、ReTool-32Bが72.5%の精度で設定できることだ。
論文 参考訳(メタデータ) (2025-04-15T18:10:22Z) - ToolACE-R: Tool Learning with Adaptive Self-Refinement [84.69651852838794]
ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。
本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。
提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-04-02T06:38:56Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。