論文の概要: Compress the Easy, Explore the Hard: Difficulty-Aware Entropy Regularization for Efficient LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.22642v1
- Date: Thu, 26 Feb 2026 05:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.543152
- Title: Compress the Easy, Explore the Hard: Difficulty-Aware Entropy Regularization for Efficient LLM Reasoning
- Title(参考訳): 効率的なLDM推論のための難易度を考慮したエントロピー正規化
- Authors: Qin-Wen Luo, Sheng Ren, Xiang Chen, Rui Liu, Jun Fang, Naiqiang Tan, Sheng-Jun Huang,
- Abstract要約: CoT(Chain-of-Thought)は、複雑な推論タスクに取り組むために、LLM(Large Language Models)を実質的に強化した。
明示的な推論ステップの冗長な性質は、推論の遅延と計算コストを禁止し、現実のデプロイメントを制限します。
本稿では,RLに基づく効率的な推論手法であるCEEH(Explore Harding)を提案する。
- 参考スコア(独自算出の注目度): 39.72119774004103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) has substantially empowered Large Language Models (LLMs) to tackle complex reasoning tasks, yet the verbose nature of explicit reasoning steps incurs prohibitive inference latency and computational costs, limiting real-world deployment. While existing compression methods - ranging from self-training to Reinforcement Learning (RL) with length constraints - attempt to mitigate this, they often sacrifice reasoning capability for brevity. We identify a critical failure mode in these approaches: explicitly optimizing for shorter trajectories triggers rapid entropy collapse, which prematurely shrinks the exploration space and stifles the discovery of valid reasoning paths, particularly for challenging questions requiring extensive deduction. To address this issue, we propose Compress responses for Easy questions and Explore Hard ones (CEEH), a difficulty-aware approach to RL-based efficient reasoning. CEEH dynamically assesses instance difficulty to apply selective entropy regularization: it preserves a diverse search space for currently hard questions to ensure robustness, while permitting aggressive compression on easier instances where the reasoning path is well-established. In addition, we introduce a dynamic optimal-length penalty anchored to the historically shortest correct response, which effectively counteracts entropy-induced length inflation and stabilizes the reward signal. Across six reasoning benchmarks, CEEH consistently reduces response length while maintaining accuracy comparable to the base model, and improves Pass@k relative to length-only optimization.
- Abstract(参考訳): CoT(Chain-of-Thought)は、複雑な推論タスクに取り組むためにLarge Language Models(LLM)を実質的に強化しているが、明示的な推論ステップの冗長性は、推論の遅延と計算コストを禁止し、実際のデプロイメントを制限している。
自己学習から強化学習(RL)まで、長さの制約のある既存の圧縮手法は、これを緩和しようとするが、彼らはしばしば、簡潔さの推論能力を犠牲にする。
短い軌道を明示的に最適化すると、急激なエントロピー崩壊が引き起こされ、探索空間を早急に縮小し、有効な推論経路の発見を弱める。
この問題に対処するため,我々は,RLに基づく効率的な推論に対する難易度の高いアプローチである,簡単な質問に対する圧縮応答とハード応答探索(CEEH)を提案する。
CEEHは、選択エントロピー正則化を適用することの難しさを動的に評価し、現在困難な問題に対して様々な検索空間を保存し、ロバスト性を確保する。
さらに, 歴史的に最短の応答に固定された動的最適長のペナルティを導入し, エントロピー誘発長のインフレーションを効果的に抑制し, 報酬信号の安定化を図る。
6つの推論ベンチマークで、CEEHは、ベースモデルに匹敵する精度を維持しながら、応答長を一貫して削減し、長さのみの最適化と比較してPass@kを改善する。
関連論文リスト
- PACE: Prefix-Protected and Difficulty-Aware Compression for Efficient Reasoning [37.125266434955584]
言語推論モデル(LRM)は、テスト時の計算をスケールすることで高いパフォーマンスを達成するが、しばしば過度に考えることに悩まされる」。
階層的管理下でのプレフィックス保護と難易度を考慮した圧縮のための2レベルフレームワークである textbfmodel を提案する。
論文 参考訳(メタデータ) (2026-02-12T06:43:08Z) - DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains [56.708381920156256]
大規模推論モデル(LRM)は印象的な能力を示してきたが、単純な問題を過度に考えることや複雑な問題を過小評価することといった認知的非効率に悩まされている。
本稿では, LRMの精度と効率を両立させる新しいフレームワークである textbfDeepCompress を紹介する。
論文 参考訳(メタデータ) (2025-10-31T12:13:11Z) - DiffAdapt: Difficulty-Adaptive Reasoning for Token-Efficient LLM Inference [68.05879215304641]
最近のLarge Language Models (LLMs) は、目覚ましい問題解決能力を示すが、有用性が不明な長い思考トレースを生成することが多い。
私たちの仕事は効率を向上し、過度に考えずにハイパフォーマンスに到達できるようにすることを目標としています。
簡単な/Normal/Hard推論戦略を選択する軽量フレームワークである textbfDiffAdapt を紹介する。
論文 参考訳(メタデータ) (2025-10-22T15:16:06Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - PEAR: Phase Entropy Aware Reward for Efficient Reasoning [23.381346604897246]
本稿では,位相依存型エントロピーを報酬設計に組み込んだ報酬機構であるPEARを紹介する。
4つのベンチマーク実験により、PEARはモデルスケール間の競争精度を維持しながら、応答長を一貫して減少させることが示された。
論文 参考訳(メタデータ) (2025-10-09T10:04:31Z) - From Long to Short: LLMs Excel at Trimming Own Reasoning Chains [48.692414597960244]
O1/R1スタイルの大推論モデル(LRM)は、従来の命令追従 LLM よりも大幅に進歩している。
近年の研究では、LEMは過剰思考に苦しむ傾向があることが示されている。
本研究では,LRMを効率よく誘導し,テスト時に最も短い正しい推論経路を特定するテスト時間スケーリング手法EDITを提案する。
論文 参考訳(メタデータ) (2025-09-07T19:00:44Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [30.184895117009457]
本稿では,問題の難易度に基づいて,モデルが自律的にChain-of-Thought(CoT)の長さを調整できる,DAST(Difficulty-Adaptive Slow Thinking)を提案する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。