論文の概要: DeepTool: Scaling Interleaved Deliberation in Tool-Integrated Reasoning via Process-Supervised Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.29568v1
- Date: Thu, 28 May 2026 08:17:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.05822
- Title: DeepTool: Scaling Interleaved Deliberation in Tool-Integrated Reasoning via Process-Supervised Reinforcement Learning
- Title(参考訳): DeepTool: プロセススーパービジョン強化学習によるツール統合推論におけるインターリーブドの議論のスケールアップ
- Authors: Yang He, Xiao Ding, Bibo Cai, Yufei Zhang, Kai Xiong, Zhouhao Sun, Bing Qin, Ting Liu,
- Abstract要約: 本稿では,各方向における思考・行動・観察の相互に展開するプロセスにおいて,意図的な思考をスケールする新しい枠組みを提案する。
DeepToolでは、まず、拡張思考をインターリーブされた軌道へと進化させる合成パイプラインを導入し、対向摂動を統合し、堅牢性と自己補正を確実にする。
第2に,行動中心のプロセス・リワードを用いて中間的相互学習の強化を行うGRPOに基づくプロセススーパービジョン強化学習を考案する。
- 参考スコア(独自算出の注目度): 46.01403307350096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-Integrated Reasoning (TIR) extends LLM capabilities by leveraging external environments. However, existing methods lack the deliberation during sequential tool invocation required for strategic planning and self-correction. While RL mitigates this, conventional approaches for Tool-Integrated Reasoning are hindered by sparse outcome-based rewards, failing to supervise intermediate reasoning steps and tool invocations. To address this, we propose DeepTool, a novel framework that scales deliberate thinking within the interleaved process of thinking, action, and observation at each turn. In DeepTool, we first introduce a synthesis pipeline that evolves extended thinking into interleaved trajectories, integrating adversarial perturbations to ensure robustness and self-correction. Secondly, we devise Process-Supervised Reinforcement Learning based on GRPO, which utilizes an Action-Centric Process Reward to reinforce intermediate interleaved thinking and enforce precise tool invocation at every turn. Extensive experiments demonstrate that DeepTool achieves superior performance, boosting Qwen2.5-7B significantly across six benchmarks (e.g., AIME24: 3.2% -> 40.4% and HMMT25: 0.0% -> 28.6%). Furthermore, the token cost-effectiveness analysis confirms the utility of interleaved thinking, demonstrating DeepTool's optimal balance between performance and token efficiency.
- Abstract(参考訳): Tool-Integrated Reasoning (TIR)は、外部環境を活用することでLLM機能を拡張する。
しかし、既存の手法では、戦略的計画や自己補正に必要なシーケンシャルなツール呼び出し時の熟考が欠如している。
RLはこれを緩和する一方で、ツール統合推論の従来のアプローチは、結果に基づく報酬の不足によって妨げられ、中間的推論ステップやツール呼び出しを監督することができない。
そこで我々はDeepToolを提案する。DeepToolは、各ターンで思考、行動、観察のインターリーブされたプロセスの中で、意図的な思考をスケールする新しいフレームワークである。
DeepToolでは、まず、拡張思考をインターリーブされた軌道へと進化させる合成パイプラインを導入し、対向摂動を統合し、堅牢性と自己補正を確実にする。
第2に, GRPOに基づくプロセス改善強化学習を考案し, アクション中心プロセス・リワードを用いて, 中間的インターリーブド思考を強化し, それぞれのターンで正確なツール実行を強制する。
大規模な実験により、DeepToolは6つのベンチマーク(例: AIME24: 3.2% -> 40.4%、HMMT25: 0.0% -> 28.6%)でQwen2.5-7Bを大幅に向上した。
さらに、トークンコスト効率分析により、インターリーブド思考の有用性を確認し、DeepToolのパフォーマンスとトークン効率の最適なバランスを示す。
関連論文リスト
- Teaching Thinking Models to Reason with Tools: A Full-Pipeline Recipe for Tool-Integrated Reasoning [59.74608632210439]
そこで本研究では,ツール使用の自然な動作を,ツールなし推論能力を犠牲にすることなく,強力な思考モデルに注入する方法を示す。
提案手法は,オープンソースモデル間のベンチマークにおいて,最先端のパフォーマンスを実現するモデルを生成する。
論文 参考訳(メタデータ) (2026-05-07T14:23:21Z) - ToolOmni: Enabling Open-World Tool Use via Agentic learning with Proactive Retrieval and Grounded Execution [49.30293260493709]
大きな言語モデル(LLM)は、外部ツールを利用することで問題解決能力を高める。
静的埋め込み検索やパラメータ記憶に頼っている既存の手法は、ユーザの意図をツールのセマンティクスに合わせるのに苦労している。
提案するツールOmniは,プロアクティブ検索とグラウンドド実行により,オープンワールドツール利用のためのLLMを実現する統合エージェントフレームワークである。
論文 参考訳(メタデータ) (2026-04-15T12:26:10Z) - TInR: Exploring Tool-Internalized Reasoning in Large Language Models [31.2602361688688]
Tool-Internalized Reasoning (TInR)は、統合推論とツール使用のためのツール内部推論フレームワークである。
1)双方向の知識アライメント戦略によるツール内化,2)高品質な推論アノテーションを用いた微調整ウォームアップ,3)TInR固有の報酬を用いた強化学習,である。
実験結果から,TInR-Uは両設定において優れた性能を示し,その有効性と効率を強調した。
論文 参考訳(メタデータ) (2026-04-12T19:38:19Z) - ZEBRAARENA: A Diagnostic Simulation Environment for Studying Reasoning-Action Coupling in Tool-Augmented LLMs [54.7743875084328]
ツール強化された大規模言語モデルにおける推論と反応の結合を研究するための診断環境であるZebraArenaを紹介する。
ZebraArenaの各タスクは、ターゲットツールの使用を通じてのみ利用できる重要な情報のセットを必要とする。
ZebraArenaには、詳細な推論と正確な外部ツール呼び出しの組み合わせが必要ですが、これは依然として課題です。
論文 参考訳(メタデータ) (2026-03-19T08:33:54Z) - Discovery and Reinforcement of Tool-Integrated Reasoning Chains via Rollout Trees [16.028598757687558]
強化学習フレームワークであるDART(Discovery and Reinforcement of Tool-Integrated Reasoning Chains via Rollout Trees)を紹介する。
DARTは、トレーニング中に動的ロールアウトツリーを構築して、有効なツール使用機会を発見する。
ツリーベースのプロセスの利点推定は、ツールの実行がソリューションに肯定的な貢献をする特定のサブトラジェクトリを特定し、信用する。
論文 参考訳(メタデータ) (2026-01-13T07:06:21Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - ToRL: Scaling Tool-Integrated RL [25.477841726836836]
ToRLは、計算ツールを自律的に使用するために、大規模言語モデルをトレーニングするためのフレームワークである。
ToRLは、モデルがツール使用のための最適な戦略を探索し、発見することを可能にする。
Qwen2.5-Mathモデルによる実験では大きな改善が見られた。
論文 参考訳(メタデータ) (2025-03-30T10:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。