論文の概要: Mitigating Overthinking in Large Reasoning Models via Difficulty-aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.21418v1
- Date: Thu, 29 Jan 2026 08:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.681545
- Title: Mitigating Overthinking in Large Reasoning Models via Difficulty-aware Reinforcement Learning
- Title(参考訳): 難易度を考慮した強化学習による大規模推論モデルの再考
- Authors: Qian Wan, Ziao Xu, Luona Wei, Xiaoxuan Shen, Jianwen Sun,
- Abstract要約: 大規模推論モデル(LRM)は、人間の深い思考行動を模倣することによって、明確な連鎖展開を実現する。
しかし、深い思考モードは、単純なタスクを扱う際に、必要以上に長い推論とリソースの非効率をもたらすことが多い。
本稿では,強化学習に基づくLEM学習フレームワークであるDifficulty-Aware Policy Optimization (DiPO)を提案する。
- 参考スコア(独自算出の注目度): 13.096138112729358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) achieve explicit chain-of-thought expansion by imitating deep thinking behaviors of humans, demonstrating excellent performance in complex task scenarios. However, the deep-thinking mode often leads to unnecessarily lengthy reasoning and resource inefficiency when handling simple tasks. This overthinking phenomenon may arise from the generation preference triggered by the reward function during post-training. Existing research attempts to mitigate overthinking from the perspective of prompt design or model training, but generally underestimates the importance of task difficulty awareness, which makes it difficult for LRMs to effectively allocate reasoning resources. In this paper, we propose Difficulty-aware Policy Optimization (DiPO), a reinforcement learning-based LRM training framework. DiPO encourages LRM to spontaneously model task complexity, and integrates them into reinforcement learning framework to adjust the generation preferences introduced by post-training. A difficulty modeling method based on model self-reasoning is proposed, which significantly reduces the dependence on manual annotation and formalize task complexity. We further develop a difficulty-signal-enhanced reward function that incorporates a penalty for lengthy reasoning while considering reasoning performance and output format. Experimental results indicate that DiPO enables the model to spontaneously adjust inference overhead, significantly reducing redundant tokens without losing performance due to thought compression.
- Abstract(参考訳): 大規模推論モデル(LRM)は、人間の深い思考行動を模倣し、複雑なタスクシナリオにおいて優れた性能を示すことで、明確な連鎖展開を実現する。
しかし、深い思考モードは、単純なタスクを扱う際に、必要以上に長い推論とリソースの非効率をもたらすことが多い。
この過剰思考現象は、訓練後の報酬関数によって引き起こされる生成嗜好から生じる可能性がある。
既存の研究は、迅速な設計やモデルトレーニングの観点から過度な思考を緩和しようとするが、一般的にはタスクの難易度認識の重要性を過小評価しているため、LRMが推論資源を効果的に割り当てることは困難である。
本稿では,強化学習に基づくLEM学習フレームワークであるDifficulty-Aware Policy Optimization (DiPO)を提案する。
DiPOはタスクの複雑さを自発的にモデル化することを奨励し、それらを強化学習フレームワークに統合し、ポストトレーニングによってもたらされる生成の好みを調整する。
モデル自己推論に基づく難易度モデリング手法を提案し,手作業のアノテーションへの依存を著しく低減し,タスクの複雑さを形式化する。
さらに,解析性能と出力形式を考慮して,長大な推論に対するペナルティを組み込んだ困難信号付報酬関数を開発した。
実験結果から,DiPOは推論のオーバーヘッドを自然に調整し,思考圧縮による性能低下を伴わずに冗長トークンを著しく低減できることがわかった。
関連論文リスト
- Think How to Think: Mitigating Overthinking with Autonomous Difficulty Cognition in Large Reasoning Models [22.57102686737925]
近年のLarge Reasoning Models (LRMs) は複雑な推論タスクに優れるが、しばしば過度な思考に悩まされる。
本稿では,LRMの難易度認識と冗長性認知を段階的に刺激する,新しい2段階の微調整戦略であるThink-How-to-Think(TH2T)を提案する。
論文 参考訳(メタデータ) (2025-07-03T14:24:26Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。