論文の概要: Discovery and Reinforcement of Tool-Integrated Reasoning Chains via Rollout Trees
- arxiv url: http://arxiv.org/abs/2601.08274v2
- Date: Fri, 16 Jan 2026 11:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 14:30:44.029952
- Title: Discovery and Reinforcement of Tool-Integrated Reasoning Chains via Rollout Trees
- Title(参考訳): 転がり木による工具介在型共振鎖の発見と補強
- Authors: Kun Li, Zenan Xu, Junan Li, Zengrui Jin, Jinghao Deng, Zexuan Qiu, Bo Zhou,
- Abstract要約: 強化学習フレームワークであるDART(Discovery and Reinforcement of Tool-Integrated Reasoning Chains via Rollout Trees)を紹介する。
DARTは、トレーニング中に動的ロールアウトツリーを構築して、有効なツール使用機会を発見する。
ツリーベースのプロセスの利点推定は、ツールの実行がソリューションに肯定的な貢献をする特定のサブトラジェクトリを特定し、信用する。
- 参考スコア(独自算出の注目度): 16.028598757687558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-Integrated Reasoning has emerged as a key paradigm to augment Large Language Models (LLMs) with computational capabilities, yet integrating tool-use into long Chain-of-Thought (long CoT) remains underexplored, largely due to the scarcity of training data and the challenge of integrating tool-use without compromising the model's intrinsic long-chain reasoning. In this paper, we introduce DART (Discovery And Reinforcement of Tool-Integrated Reasoning Chains via Rollout Trees), a reinforcement learning framework that enables spontaneous tool-use during long CoT reasoning without human annotation. DART operates by constructing dynamic rollout trees during training to discover valid tool-use opportunities, branching out at promising positions to explore diverse tool-integrated trajectories. Subsequently, a tree-based process advantage estimation identifies and credits specific sub-trajectories where tool invocation positively contributes to the solution, effectively reinforcing these beneficial behaviors. Extensive experiments on challenging benchmarks like AIME and GPQA-Diamond demonstrate that DART significantly outperforms existing methods, successfully harmonizing tool execution with long CoT reasoning.
- Abstract(参考訳): Tool-Integrated Reasoningは、大規模言語モデル(LLM)を計算能力で強化する重要なパラダイムとして登場したが、トレーニングデータの不足と、本質的なロングチェーン推論を損なうことなくツールの使用を統合することの難しさから、ツール使用を長時間のChain-of-Thought(ロングCoT)に統合することはまだ未熟である。
本稿ではDART(Discovery and Reinforcement of Tool-Integrated Reasoning Chains via Rollout Trees)を紹介する。
DARTは、トレーニング中に動的ロールアウトツリーを構築して、有効なツール使用機会を見つけ、有望な位置で分岐して、多様なツール統合トラジェクトリを探索する。
その後、木に基づくプロセスの利点推定は、ツールの実行がソリューションに肯定的な貢献をする特定のサブトラジェクトリを特定し、信用し、これらの有益な振る舞いを効果的に補強する。
AIMEやGPQA-Diamondといった挑戦的なベンチマークに関する大規模な実験では、DARTが既存のメソッドを著しく上回り、長いCoT推論でツールの実行を調和させることに成功した。
関連論文リスト
- PORTool: Tool-Use LLM Training with Rewarded Tree [11.154654446183455]
本稿では,ツール利用のLLMにおいて,正しい解答を得られる様々な軌跡を探索する強化学習法を提案する。
異なる軌跡をまたいだ共有ステップは同じ報酬を受け取り、同じフォークの下の異なるステップは異なる報酬を受け取る。
実験では17のツールを使用してユーザクエリに対処し、時間に敏感なトピックと時間に変化しないトピックの両方をカバーする。
論文 参考訳(メタデータ) (2025-10-29T23:28:53Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - LoSemB: Logic-Guided Semantic Bridging for Inductive Tool Retrieval [20.24121370193077]
帰納的ツール検索,すなわち LoSemB のための Logic-Guided Semantic Bridging フレームワークを提案する。
LoSemBは、コストのかかる再トレーニングなしに、帰納的ツール検索のための潜在論理情報をマイニングし、転送することを目的としている。
論文 参考訳(メタデータ) (2025-08-11T07:07:18Z) - AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning [17.086082843274003]
大言語モデル(LLM)は、強力な大共振モデル(LRM)へと進化する
Tool-Integrated Reasoning (TIR)は、外部ツールを組み込むことで、その機能をさらに拡張する。
ツールを適応的に選択する人間の能力に触発されて,強化学習フレームワークであるAutoTIRを紹介した。
論文 参考訳(メタデータ) (2025-07-29T14:12:28Z) - Towards Effective Code-Integrated Reasoning [89.47213509714578]
モデルが必要に応じてコードを生成するコード統合推論について検討し、コードインタプリタを通じてそれを実行することによってフィードバックを統合する。
ツール強化強化学習は、学習力学における潜在的な不安定さに悩まされる可能性がある。
我々は、探索と安定性のバランスをとるための強化されたトレーニング戦略を開発し、推論性能を改善しながら、ツールの利用能力を徐々に構築する。
論文 参考訳(メタデータ) (2025-05-30T11:30:18Z) - Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning [63.31585771716123]
大言語モデル(LLM)は、大規模強化学習(RL)を通じて顕著な推論能力を示した。
ステップワイズ推論中に複数の外部ツールを自律的に呼び出すLLベースのフレームワークであるTool-Starを紹介する。
Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方に体系的な設計を取り入れている。
論文 参考訳(メタデータ) (2025-05-22T09:00:19Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。