論文の概要: DeCoRL: Decoupling Reasoning Chains via Parallel Sub-Step Generation and Cascaded Reinforcement for Interpretable and Scalable RLHF
- arxiv url: http://arxiv.org/abs/2511.19097v1
- Date: Tue, 11 Nov 2025 07:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.296574
- Title: DeCoRL: Decoupling Reasoning Chains via Parallel Sub-Step Generation and Cascaded Reinforcement for Interpretable and Scalable RLHF
- Title(参考訳): DeCoRL: Reasoning Chainsの並列サブステップ生成とキャッケード強化による解釈・拡張性RLHF
- Authors: Ziyuan Gao, Di Liang, Xianjie Wu, Philippe Morel, Minlong Peng,
- Abstract要約: DeCoRL(Decoupled Reasoning Chains via Coordinated Reinforcement Learning)は、シーケンシャルな処理から協調的なモジュールオーケストレーションへと推論を変換する新しいフレームワークである。
DeCoRLは軽量な特殊モデルを訓練して推論サブステップを同時に生成し、並列処理によるシーケンシャルなボトルネックを排除している。
包括的評価は、RM-Bench、RMB、RewardBenchにまたがる最先端の結果を示し、大規模モデルを含む既存の手法よりも優れている。
- 参考スコア(独自算出の注目度): 11.39724102247425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing reinforcement learning methods for Chain-of-Thought reasoning suffer from two critical limitations. First, they operate as monolithic black boxes that provide undifferentiated reward signals, obscuring individual step contributions and hindering error diagnosis. Second, sequential decoding has O(n) time complexity. This makes real-time deployment impractical for complex reasoning tasks. We present DeCoRL (Decoupled Reasoning Chains via Coordinated Reinforcement Learning), a novel framework that transforms reasoning from sequential processing into collaborative modular orchestration. DeCoRL trains lightweight specialized models to generate reasoning sub-steps concurrently, eliminating sequential bottlenecks through parallel processing. To enable precise error attribution, the framework designs modular reward functions that score each sub-step independently. Cascaded DRPO optimization then coordinates these rewards while preserving inter-step dependencies. Comprehensive evaluation demonstrates state-of-the-art results across RM-Bench, RMB, and RewardBench, outperforming existing methods including large-scale models. DeCoRL delivers 3.8 times faster inference while maintaining superior solution quality and offers a 22.7\% improvement in interpretability through explicit reward attribution. These advancements, combined with a 72.4\% reduction in energy consumption and a 68\% increase in throughput, make real-time deployment of complex reasoning systems a reality.
- Abstract(参考訳): 既存の強化学習手法は2つの限界に悩まされている。
まず、モノリシックなブラックボックスとして動作し、未分化の報酬信号を提供し、個々のステップのコントリビューションを隠蔽し、エラー診断を妨げる。
第二に、シーケンシャルデコーディングはO(n)時間複雑性を持つ。
これにより、複雑な推論タスクに対してリアルタイムのデプロイメントが非現実的になります。
DeCoRL(Decoupled Reasoning Chains via Coordinated Reinforcement Learning)は、シーケンシャルな処理から協調的なモジュールオーケストレーションへと推論を変換する新しいフレームワークである。
DeCoRLは軽量な特殊モデルを訓練して推論サブステップを同時に生成し、並列処理によるシーケンシャルなボトルネックを排除している。
正確なエラー帰属を可能にするため、フレームワークは各サブステップを独立してスコアするモジュラー報酬関数を設計した。
DRPO最適化は、ステップ間の依存関係を保持しながら、これらの報酬を調整する。
包括的評価は、RM-Bench、RMB、RewardBenchにまたがる最先端の結果を示し、大規模モデルを含む既存の手法よりも優れている。
DeCoRLは、優れたソリューション品質を維持しながら3.8倍高速な推論を提供し、明示的な報酬帰属を通じて22.7%の解釈性向上を提供する。
これらの進歩は、エネルギー消費の72.4\%削減とスループットの68\%増加と相まって、複雑な推論システムのリアルタイム展開を実現している。
関連論文リスト
- DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - Rethinking Reasoning Quality in Large Language Models through Enhanced Chain-of-Thought via RL [19.659532349434418]
強化学習(Reinforcement Learning, RL)は、近年、大規模言語モデルの推論能力を強化する主要なパラダイムとなっている。
しかし、数学やプログラミングのベンチマークで一般的に使われるルールベースの報酬関数は、応答形式と正しさのみを評価する。
本稿では,報酬と有利な信号の両方を再生するプラグイン・アンド・プレイのRL報酬フレームワークであるDynamic Reasoning Efficiency Reward (DRER)を提案する。
論文 参考訳(メタデータ) (2025-09-07T11:52:18Z) - VERIRL: Boosting the LLM-based Verilog Code Generation via Reinforcement Learning [32.974199255760944]
本稿では,Verilogコード生成に適した強化学習フレームワークを提案する。
スパース信号と雑音信号に対処するために,トレースバックに基づくRescore機構を提案する。
RL微調整中の破滅的忘れと過適合を軽減するため,サンプルバランスの重み付け戦略を導入する。
論文 参考訳(メタデータ) (2025-08-25T20:20:44Z) - Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts [25.205293698698867]
我々はNested-ReFTを導入し、ターゲットモデルのサブセットがトレーニング中に非政治的な完了を生成する行動モデルとして機能する。
我々の理論的分析は、Nested-ReFTが制御された分散を伴う非バイアス勾配推定値を得ることを示している。
我々の経験的分析は、複数の数学推論ベンチマークとモデルサイズでトークン/秒として測定された計算効率の改善を実証している。
論文 参考訳(メタデータ) (2025-08-13T18:37:46Z) - RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。