論文の概要: Teaching Thinking Models to Reason with Tools: A Full-Pipeline Recipe for Tool-Integrated Reasoning
- arxiv url: http://arxiv.org/abs/2605.06326v1
- Date: Thu, 07 May 2026 14:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.890458
- Title: Teaching Thinking Models to Reason with Tools: A Full-Pipeline Recipe for Tool-Integrated Reasoning
- Title(参考訳): ツールで推論する思考モデルを教える: ツール統合推論のための完全なパイプラインレシピ
- Authors: Qianjia Cheng, Yuchen Zhang, Zhilin Wang, Yuxin Zuo, Shunkai Zhang, Yuchen Fan, Yu Qiao, Bowen Zhou, Ning Ding, Yu Cheng, Yun Luo, Ganqu Cui,
- Abstract要約: そこで本研究では,ツール使用の自然な動作を,ツールなし推論能力を犠牲にすることなく,強力な思考モデルに注入する方法を示す。
提案手法は,オープンソースモデル間のベンチマークにおいて,最先端のパフォーマンスを実現するモデルを生成する。
- 参考スコア(独自算出の注目度): 59.74608632210439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-integrated reasoning (TIR) offers a direct way to extend thinking models beyond the limits of text-only reasoning. Paradoxically, we observe that tool-enabled evaluation can degrade reasoning performance even when the strong thinking models make almost no actual tool calls. In this paper, we investigate how to inject natural tool-use behavior into a strong thinking model without sacrificing its no-tool reasoning ability, and present a comprehensive TIR recipe. We highlight that (i) the effectiveness of TIR supervised fine-tuning (SFT) hinges on the learnability of teacher trajectories, which should prioritize problems inherently suited for tool-augmented solutions; (ii) controlling the proportion of tool-use trajectories could mitigate the catastrophic forgetting of text-only reasoning capacity; (iii) optimizing for pass@k and response length instead of training loss could maximize TIR SFT gains while preserving headroom for reinforcement learning (RL) exploration; (iv) a stable RL with verifiable rewards (RLVR) stage, built upon suitable SFT initialization and explicit safeguards against mode collapse, provides a simple yet remarkably effective solution. When applied to Qwen3 thinking models at 4B and 30B scales, our recipe yields models that achieve state-of-the-art performance in a wide range of benchmarks among open-source models, such as 96.7% and 99.2% on AIME 2025 for 4B and 30B, respectively.
- Abstract(参考訳): ツール統合推論(TIR)は、テキストのみの推論の限界を超えて思考モデルを拡張する直接的な方法を提供する。
逆説的には、強力な思考モデルが実際のツールコールをほとんど行わない場合でも、ツール対応評価は推論性能を低下させる可能性がある。
本稿では, ツール使用の自然な動作を, ノンツール推論能力を犠牲にすることなく, 強力な思考モデルに注入する方法について検討し, 総合的なTIRレシピを提案する。
私たちはそれを強調します
(i)TIR指導型微調整(SFT)が教師軌跡の学習性に及ぼす影響は,ツール強化ソリューションに固有の課題を優先すべきである。
二 道具使用軌道の割合の制御は、テキストのみの推論能力の破滅的な忘れを軽減させることができる。
三 訓練損失に代えてpass@kを最適化し、応答長を最適化することは、強化学習(RL)探索のためのヘッドルームを維持しながら、TIR SFTゲインを最大化することができる。
(iv) 適切なSFT初期化とモード崩壊に対する明確な防御の上に構築された、検証可能な報酬(RLVR)ステージを持つ安定なRLは、単純で極めて効果的なソリューションを提供する。
4B と 30B の Qwen3 の思考モデルに適用すると,このレシピは AIME 2025 で 4B と 30B でそれぞれ96.7% と 99.2% といった,幅広いベンチマークで最先端のパフォーマンスを達成するモデルが得られる。
関連論文リスト
- Beyond Distribution Sharpening: The Importance of Task Rewards [20.11905685439596]
両パラダイムを実装するツールとしてRLを用いて,分布のシャープニングとタスク逆学習を比較した。
Llama-3.2-3B-インストラクト、Qwen2.5-3B-インストラクト、Qwen3-4B-インストラクト-2507を用いた数学データセットによる実験では、シャープ化が利得を制限することが確認された。
論文 参考訳(メタデータ) (2026-04-17T17:17:55Z) - In-Context Reinforcement Learning for Tool Use in Large Language Models [68.66653829365187]
大規模言語モデル(LLM)は強力な推論能力を示すが、複雑なタスクにおける性能は内部知識によって制約されることが多い。
In-Context Reinforcement Learning (ICRL) を提案する。
ICRLは最先端のパフォーマンスを実現し、従来のSFTベースのパイプラインに代わるスケーラブルでデータ効率の高い代替手段としての有効性を示す。
論文 参考訳(メタデータ) (2026-03-09T08:06:18Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning [93.30252692375886]
ルールベースの強化学習は、大きな言語モデルにおけるツールコールを強化するために使用することができる。
ツールN1-7B/14Bはいくつかの主要なベンチマークでGPT-4oを上回った。
論文 参考訳(メタデータ) (2025-04-25T02:55:21Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - ReTool: Reinforcement Learning for Strategic Tool Use in LLMs [27.07998056454784]
ReToolは、ツール統合学習によるロングフォーム推論を強化する。
モデルは400のトレーニングステップで67%の精度を達成する。
注目すべきは、ReTool-32Bが72.5%の精度で設定できることだ。
論文 参考訳(メタデータ) (2025-04-15T18:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。