論文の概要: Balancing the Reasoning Load: Difficulty-Differentiated Policy Optimization with Length Redistribution for Efficient and Robust Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.18533v1
- Date: Thu, 19 Mar 2026 06:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.98293
- Title: Balancing the Reasoning Load: Difficulty-Differentiated Policy Optimization with Length Redistribution for Efficient and Robust Reinforcement Learning
- Title(参考訳): 推論負荷のバランシング:効率的・ロバスト強化学習のための長さ再分配による難易度別政策最適化
- Authors: Yinan Xia, Haotian Zhang, Huiming Wang,
- Abstract要約: 大規模推論モデル(LRM)は例外的な推論能力を示しているが、過度に考えるという問題にも悩まされている。
モデルの性能を超える問題に対して、LEMは自信過剰な現象を示し、過度に短いが誤った答えを生じる傾向にある。
本稿では,単純かつ複雑なタスクを個別に最適化する効率的な強化学習アルゴリズムであるDifficulty-Differentiated Policy Optimization (DDPO)を提案する。
- 参考スコア(独自算出の注目度): 21.035897836243915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have shown exceptional reasoning capabilities, but they also suffer from the issue of overthinking, often generating excessively long and redundant answers. For problems that exceed the model's capabilities, LRMs tend to exhibit the overconfidence phenomenon, generating overly short but incorrect answers, which may contribute to suboptimal performance. To address these issues, we propose Difficulty-Differentiated Policy Optimization (DDPO), an efficient reinforcement learning algorithm that optimizes simple and complex tasks separately based on the overconfidence phenomenon. Specifically, it reduces the output length for simple tasks without compromising accuracy, while for complex tasks, it expands the exploration space to improve performance. We further derive the theoretical conditions for maximizing expected accuracy, which require the length distribution to closely approximate the optimal length and be as concentrated as possible. Based on these conditions, we propose using the difficulty-level average as a well-founded reference for length optimization. Extensive experiments on both in-domain and out-of-domain benchmarks validate the superiority and effectiveness of DDPO. Compared to GRPO, DDPO reduces the average answer length by 12% while improving accuracy by 1.85% across multiple benchmarks, achieving a better trade-off between accuracy and length. The code is available at https://github.com/Yinan-Xia/DDPO.
- Abstract(参考訳): 大規模推論モデル(LRM)は例外的な推論能力を示しているが、過度に長い冗長な答えを生じる過度な思考の問題にも悩まされている。
モデルの性能を超える問題に対して、LEMは過信現象を呈し、過度に短いが誤った答えを生じさせ、最適以下の性能に寄与する可能性がある。
これらの問題に対処するために,過信現象に基づいて,単純かつ複雑なタスクを個別に最適化する効率的な強化学習アルゴリズムであるDifficulty-Differentiated Policy Optimization (DDPO)を提案する。
具体的には、単純なタスクの出力長を精度を損なうことなく削減し、複雑なタスクでは、探索空間を拡張して性能を向上させる。
さらに, 推定精度を最大化する理論条件を導出し, 最大長を近似し, できるだけ集中する長さ分布を求める。
これらの条件に基づき,長さ最適化のための基準として,難易度平均を用いることを提案する。
ドメイン内ベンチマークとドメイン外ベンチマークの両方に関する大規模な実験は、DDPOの優位性と有効性を検証する。
GRPOと比較して、DDPOは平均回答長を12%削減し、複数のベンチマークで精度を1.85%改善し、精度と長さのトレードオフを良くする。
コードはhttps://github.com/Yinan-Xia/DDPOで公開されている。
関連論文リスト
- SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning [34.14269693187003]
プログレッシブCoT長キャリブレーションを用いた新しい効率的な推論法であるSmartThinkerを提案する。
実験の結果、SmartThinkerは52.5%の平均長圧縮を実現し、精度が向上した。
論文 参考訳(メタデータ) (2026-03-09T06:08:14Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - On-Policy Supervised Fine-Tuning for Efficient Reasoning [27.67711115864118]
大規模推論モデル(LRM)は、長い連鎖推論を探索するために強化学習(RL)を用いて訓練されることが多い。
近年の手法では, 正確さと簡潔さを両立させるため, マルチリワード目的を付加しているが, これらの複雑な拡張はトレーニングを不安定にし, 準最適トレードオフをもたらすことが多い。
従来の精度を維持しつつ,CoT長を最大80まで短縮する簡易なSFTトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2026-02-13T19:16:39Z) - DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains [56.708381920156256]
大規模推論モデル(LRM)は印象的な能力を示してきたが、単純な問題を過度に考えることや複雑な問題を過小評価することといった認知的非効率に悩まされている。
本稿では, LRMの精度と効率を両立させる新しいフレームワークである textbfDeepCompress を紹介する。
論文 参考訳(メタデータ) (2025-10-31T12:13:11Z) - DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization [37.96314154235252]
本稿では,正しいロールアウトの時間に基づく学習信号を,不正なロールアウトから切り離す新しいフレームワークを提案する。
1.5Bモデルでは,単純な質問に対して1.1%の性能損失しか得られず,77%の長さ削減を実現している。
論文 参考訳(メタデータ) (2025-10-06T04:18:13Z) - HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs [54.16300997612526]
大規模言語モデル (LLM) は、複雑なタスクの正確性を改善するために、Chain-of-Thought (CoT) 推論にますます依存している。
本稿では適応推論制御のフレームワークであるHybrid Policy Optimization(HiPO)を紹介する。
数学とコーディングベンチマークによる実験は、HiPOがトークン長を大幅に削減し、正確性を維持したり改善したりすることを示した。
論文 参考訳(メタデータ) (2025-09-28T16:46:12Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Pruning Long Chain-of-Thought of Large Reasoning Models via Small-Scale Preference Optimization [26.462701299259248]
大規模推論モデル(LRM)は、長いチェーン・オブ・ソート(CoT)推論を通じて複雑なタスクに強い性能を示す。
長いアウトプットは計算コストを増大させ、過度に考え直し、推論の有効性と効率のバランスをとる上での課題を提起する。
本稿では, LRMの生成時間を削減するための効率的な手法について検討する。
論文 参考訳(メタデータ) (2025-08-13T20:00:09Z) - HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization [17.844933477135523]
本稿では,歴史対応政策最適化(HAPO)について述べる。
HAPOは、この履歴状態に基づいて新しい長さ報酬関数を用いて、正しい解の発見を動機付けている。
実験の結果,HAPOはLLMの簡潔推論能力を効果的に誘導し,33~59%の精度低下と2~5%の精度低下を生じることがわかった。
論文 参考訳(メタデータ) (2025-05-16T13:21:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。