Fugu-MT 論文翻訳(概要): ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

論文の概要: ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

arxiv url: http://arxiv.org/abs/2504.11536v2
Date: Thu, 17 Apr 2025 16:46:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 12:01:52.998329
Title: ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
Title（参考訳）: ReTool: LLMにおける戦略ツールの強化学習
Authors: Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong,
Abstract要約: ReToolは、ツール統合学習によるロングフォーム推論を強化する。モデルは400のトレーニングステップで67%の精度を達成する。注目すべきは、ReTool-32Bが72.5%の精度で設定できることだ。
参考スコア（独自算出の注目度）: 27.07998056454784
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While reasoning models (e.g., DeepSeek R1) trained with reinforcement learning (RL), excel in textual reasoning, they struggle in scenarios requiring structured problem-solving, such as geometric reasoning, concise computation, or complex equation solving-areas where computational tools like code interpreters (CI) demonstrate distinct advantages. To bridge this gap, we propose ReTool, which enhances long-form reasoning with tool-integrated learning, including two key features: (1) dynamic interleaving of real-time code execution within natural language reasoning processes, and (2) an automated RL paradigm that allows policy rollouts with multi-turn real-time code execution and teaches the model in learning when and how to invoke tools based on outcome feedback. ReTool employs a systematic training framework, beginning with synthetic cold-start data generation to produce code-augmented long-form reasoning traces for fine-tuning base models. Subsequent RL training leverages task outcomes as rewards to iteratively refine the model's tool use strategy, enabling autonomous discovery of optimal tool invocation patterns without human priors. Experiments on the challenging MATH Olympiad benchmark AIME demonstrate ReTool's superiority: Our 32B model achieves 67% accuracy with 400 training steps, outperforming text-based RL baseline (40% accuracy, 1080 steps) in efficiency and performance. Remarkably, ReTool-32B attains 72.5% accuracy in extended settings, surpassing OpenAI's o1-preview by 27.9%. Further analysis reveals emergent behaviors such as code self-correction, signaling an ''aha moment'' in which the model autonomously masters adaptive tool use. These findings highlight the promise of outcome-driven tool integration for advancing complex mathematical reasoning and offer new insights into hybrid neuro-symbolic systems.
Abstract（参考訳）: 推論モデル(例:DeepSeek R1)は強化学習(RL)で訓練され、テキスト推論に優れるが、幾何的推論、簡潔な計算、複雑な方程式の解法といった構造化された問題解決を必要とするシナリオで苦労する。このギャップを埋めるために,1)自然言語推論プロセス内でのリアルタイムコード実行の動的インターリーブ,(2)マルチターンリアルタイムコード実行によるポリシーロールアウトを可能にする自動RLパラダイム,および結果フィードバックに基づくツールの実行方法の学習におけるモデル指導という2つの主要な特徴を含む,ツール統合学習による長期的推論を強化するReToolを提案する。 ReToolは、合成コールドスタートデータ生成から始まり、微調整ベースモデルのためのコード拡張ロングフォーム推論トレースを生成する、体系的なトレーニングフレームワークを採用している。その後のRLトレーニングは、モデルのツール使用戦略を反復的に洗練するための報酬としてタスク結果を活用する。私たちの32Bモデルは、400のトレーニングステップで67%の精度を達成し、テキストベースのRLベースライン(40%の精度、1080のステップ)を効率とパフォーマンスで上回っています。 ReTool-32Bは拡張設定で72.5%の精度を獲得し、OpenAIのo1-previewを27.9%上回った。さらに分析すると、コード自己補正のような創発的な振る舞いが明らかになり、モデルが適応ツールを自律的にマスターする'aha moment'がシグナルとなる。これらの知見は、複雑な数学的推論を推し進め、ハイブリッドなニューロシンボリックシステムに対する新たな洞察を提供するために、結果駆動ツールの統合が約束されることを強調している。

関連論文リスト

Towards Effective Code-Integrated Reasoning [89.47213509714578]
モデルが必要に応じてコードを生成するコード統合推論について検討し、コードインタプリタを通じてそれを実行することによってフィードバックを統合する。ツール強化強化学習は、学習力学における潜在的な不安定さに悩まされる可能性がある。我々は、探索と安定性のバランスをとるための強化されたトレーニング戦略を開発し、推論性能を改善しながら、ツールの利用能力を徐々に構築する。
論文参考訳（メタデータ） (2025-05-30T11:30:18Z)
Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning [63.31585771716123]
大言語モデル(LLM)は、大規模強化学習(RL)を通じて顕著な推論能力を示した。ステップワイズ推論中に複数の外部ツールを自律的に呼び出すLLベースのフレームワークであるTool-Starを紹介する。 Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方に体系的な設計を取り入れている。
論文参考訳（メタデータ） (2025-05-22T09:00:19Z)
Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving [27.551399472250168]
大規模言語モデル(LLM)は、正確で検証可能な計算を必要とする数学的推論タスクに苦慮することが多い。結果に基づく報酬から強化学習(RL)がテキストベースの推論を強化する一方で、エージェントがコード実行のような外部ツールを活用するために自律的に学習する方法を理解することは依然として重要である。
論文参考訳（メタデータ） (2025-05-12T17:23:34Z)
Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning [93.30252692375886]
同様の学習パラダイムを用いた一連のツール利用言語モデルを開発した。 Nemotron-Research-Tool-N1は、ツール呼び出しの構造的妥当性と機能的正確性のみを評価するバイナリ報酬で最適化されている。実験により、Qwen-2.5-7B/14B-Instruct上に構築されたNemotron-Research-Tool-N1-7BとNemotron-Research-Tool-N1-14Bが最先端の結果を得ることが示された。
論文参考訳（メタデータ） (2025-04-25T02:55:21Z)
OTC: Optimal Tool Calls via Reinforcement Learning [87.28134636548705]
ツール統合報酬は,正しさとツール効率を共同で考慮し,高いツール生産性を向上する。このアプローチでは,ツールコールを最大73.1%削減し,ツールの生産性を最大229.4%向上すると同時に,同等の回答精度を維持している。
論文参考訳（メタデータ） (2025-04-21T05:40:05Z)
ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-04-16T21:45:32Z)
ToolACE-R: Tool Learning with Adaptive Self-Refinement [84.69651852838794]
ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
論文参考訳（メタデータ） (2025-04-02T06:38:56Z)
ToRL: Scaling Tool-Integrated RL [25.477841726836836]
ToRLは、計算ツールを自律的に使用するために、大規模言語モデルをトレーニングするためのフレームワークである。 ToRLは、モデルがツール使用のための最適な戦略を探索し、発見することを可能にする。 Qwen2.5-Mathモデルによる実験では大きな改善が見られた。
論文参考訳（メタデータ） (2025-03-30T10:16:25Z)
Learning Autonomous Code Integration for Math Language Models [30.057052324461534]
本稿では,メタ認知ツール利用決定と進化能力の間の自己強化サイクルを構築するために,構造化探索(E-step)と非政治最適化(M-step)を併用する新しいフレームワークを提案する。当社の7Bモデルは、MATH500では11%、AIMEでは9.4%、o1のようなCoTでは9.4%改善しています。
論文参考訳（メタデータ） (2025-02-02T06:32:23Z)
iTool: Boosting Tool Use of Large Language Models via Iterative Reinforced Fine-Tuning [39.65877861652369]
大規模な言語モデルを外部ツールで拡張することは、その能力を強化するための有望なアプローチである。その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。本稿では,これらの課題を軽減するために,反復的に強化された微調整戦略を提案する。
論文参考訳（メタデータ） (2025-01-15T04:52:34Z)
ToolComp: A Multi-Tool Reasoning & Process Supervision Benchmark [0.0]
マルチステップのツール使用推論を評価するためのベンチマークであるToolCompを紹介する。 ToolCompはモデルと人間のアノテータのコラボレーションによって開発されている。我々は、結果教師付き報酬モデルとプロセス教師付き報酬モデルのパフォーマンスを比較するために、合成トレーニングデータを生成する。
論文参考訳（メタデータ） (2025-01-02T15:10:52Z)
Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文参考訳（メタデータ） (2023-10-02T09:47:40Z)
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文参考訳（メタデータ） (2023-05-25T10:58:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。