論文の概要: D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use
- arxiv url: http://arxiv.org/abs/2602.02160v1
- Date: Mon, 02 Feb 2026 14:36:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.213889
- Title: D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use
- Title(参考訳): D-CORE:複雑なツール利用のための大規模推論モデルにおけるタスク分解のインセンティブ化
- Authors: Bowen Xu, Shaoyu Wu, Hao Jiang, Kai Liu, Xin Chen, Lulu Hu, Bin Yang,
- Abstract要約: 大きな推論モデル(LRM)は、複雑なツール使用シナリオにおけるサブタスク分解の能力に欠けており、Lazy Reasoningに繋がる。
自己蒸留と多様性を考慮した強化学習を通じて,LEMのタスク分解推論能力にインセンティブを与える2段階のトレーニングフレームワークを提案する。
D-COREは、さまざまなベンチマークとモデルスケールで堅牢なツール使用の改善を実現している。
- 参考スコア(独自算出の注目度): 17.99381644283042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective tool use and reasoning are essential capabilities for large reasoning models~(LRMs) to address complex real-world problems. Through empirical analysis, we identify that current LRMs lack the capability of sub-task decomposition in complex tool use scenarios, leading to Lazy Reasoning. To address this, we propose a two-stage training framework D-CORE~(\underline{\textbf{D}}ecomposing tasks and \underline{\textbf{Co}}mposing \underline{\textbf{Re}}asoning processes) that first incentivize the LRMs' task decomposition reasoning capability via self-distillation, followed by diversity-aware reinforcement learning~(RL) to restore LRMs' reflective reasoning capability. D-CORE achieves robust tool-use improvements across diverse benchmarks and model scales. Experiments on BFCLv3 demonstrate superiority of our method: D-CORE-8B reaches 77.7\% accuracy, surpassing the best-performing 8B model by 5.7\%. Meanwhile, D-CORE-14B establishes a new state-of-the-art at 79.3\%, outperforming 70B models despite being 5$\times$ smaller. The source code is available at https://github.com/alibaba/EfficientAI.
- Abstract(参考訳): 効果的なツールの使用と推論は、複雑な現実世界の問題に対処する大きな推論モデル—(LRM)にとって不可欠な機能である。
実験分析により,現在のLEMは複雑なツール利用シナリオにおいてサブタスク分解の能力に欠けており,Lazy Reasoningに繋がることがわかった。
そこで本稿では,LRM の自己蒸留によるタスク分解推論能力を最初にインセンティブ化する2段階のトレーニングフレームワーク D-CORE~(\underline{\textbf{D}}ecomposing Task と \underline{\textbf{Co}}mposing \underline{\textbf{Re}}asoning Process)を提案する。
D-COREは、さまざまなベンチマークとモデルスケールで堅牢なツール使用の改善を実現している。
D-CORE-8B の精度は 77.7 % に達し,最高性能8B モデルよりも 5.7 % 向上した。
一方、D-CORE-14Bは5$\times$より小さいにもかかわらず、79.3\%の新しい最先端モデルを確立し、70Bモデルを上回った。
ソースコードはhttps://github.com/alibaba/EfficientAIで入手できる。
関連論文リスト
- One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Compass-Thinker-7B Technical Report [8.496143273813718]
計算資源とコストの少ない強化学習の可能性を検討するために,Compass-Thinker-7Bモデルを提案する。
Compass-Thinker-7Bは、特別に設計されたReinforcement Learning Pipelineを通じて、オープンソースモデルからトレーニングされている。
我々はCompass-Thinker-7Bが例外的推論能力を有しており、同じ大きさのRLモデルと比較して数学において優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-08-12T12:58:12Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。