論文の概要: Implicit Compression Regularization: Concise Reasoning via Internal Shorter Distributions in RL Post-Training
- arxiv url: http://arxiv.org/abs/2605.07316v1
- Date: Fri, 08 May 2026 06:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.854697
- Title: Implicit Compression Regularization: Concise Reasoning via Internal Shorter Distributions in RL Post-Training
- Title(参考訳): インプシブ圧縮規則化:RL後試験における内部短距離分布による簡潔推論
- Authors: Chen Wang, Hexuan Deng, Yining Zhang, Yuchen Zhang, Jionghao Bai, Zhaochun Li, Ge Lan, Yue Wang,
- Abstract要約: 本稿では,ロールアウトグループにおける最短応答によって引き起こされる仮想的短値分布から圧縮信号を得るオンライン正規化手法を提案する。
3つの推論バックボーンの実験と、複数の数学的および知識集約ベンチマークにより、ICRは、正確性を維持したり改善したりしながら、応答を一貫して短縮することが示された。
- 参考スコア(独自算出の注目度): 11.132427208920424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards improves LLM reasoning but often induces overthinking, where models generate unnecessarily long reasoning traces. Existing methods mainly rely on length penalties or early-exit strategies; however, the former may degrade accuracy and induce underthinking, whereas the latter assumes that substantial portions of reasoning traces can be safely truncated. To obtain a compression signal without these limitations, we revisit the training dynamics of existing compression methods. We observe that the length--accuracy correlation is initially negative but continually increases during compression, indicating that shorter responses are initially more likely to be correct but gradually lose this property as the policy moves toward underthinking. Based on this observation, we formalize overthinking: a negative correlation indicates an overthinking regime, while a positive one indicates underthinking. When overthinking, the shortest correct responses are shorter than the group-average response length in expectation, making them natural compression targets already present in on-policy rollouts. We therefore propose \emph{Implicit Compression Regularization} (ICR), an on-policy regularization method whose compression signal comes from a virtual shorter distribution induced by the shortest correct responses in rollout groups, guiding the policy toward concise yet correct trajectories. Training dynamics show that ICR maintains a better length--accuracy correlation during compression, indicating that short responses remain better aligned with correctness instead of drifting toward underthinking. Experiments on three reasoning backbones and multiple mathematical and knowledge-intensive benchmarks show that ICR consistently shortens responses while preserving or improving accuracy, achieving a stronger accuracy--length Pareto frontier.
- Abstract(参考訳): 検証可能な報酬による強化学習は、LLM推論を改善するが、しばしば過度な思考を引き起こす。
既存の手法は、主に長さのペナルティや早期退行戦略に依存しているが、前者は精度を低下させ、過小評価を誘発し、後者は推論トレースのかなりの部分を安全に切り離すことができると仮定する。
このような制約を伴わずに圧縮信号を得るため,既存の圧縮手法のトレーニング力学を再考する。
長値相関は最初は否定的だが圧縮中は継続的に増加し, より短い応答は最初は正しがちだが, 政策が未考に進むにつれ, この特性は徐々に失われていくことが示唆された。
負の相関は過剰な思考体制を示すが、正の相関は過大な思考を示す。
過度に考えると、最も短い正しい応答は期待するグループ平均応答長よりも短いので、既にオンラインロールアウトに存在する自然な圧縮ターゲットとなる。
そこで,本研究では,ロールアウト群における最短応答による仮想的短時間分布から圧縮信号が導出され,簡潔で正確な軌道に対するポリシーを導出するオンライン正規化手法である 'emph{Implicit Compression Regularization} (ICR) を提案する。
トレーニング力学は、ICRが圧縮の間、より長い精度の相関を保ち、短い応答は、下向きにドリフトするよりは、より正確であることを示す。
3つの推論バックボーンの実験と、複数の数学的および知識集約的なベンチマークにより、ICRは、正確性を維持したり改善したりしながら応答を一貫して短縮し、より強力な精度のパレートフロンティアを実現する。
関連論文リスト
- ExpThink: Experience-Guided Reinforcement Learning for Adaptive Chain-of-Thought Compression [14.830831997228657]
大きな推論モデル(LRM)は、拡張チェーン・オブ・シークレット(CoT)推論を通じて高いパフォーマンスを達成するが、過度のトークン消費と高い推論遅延に悩まされる。
両次元を2つの相補的な機構で処理するRLフレームワークである textbfExpThinkxspace を提案する。
複数の数学的推論ベンチマークの実験により、textbfExpThinkxspaceは平均応答長を最大77%削減し、同時に精度を向上することを示した。
論文 参考訳(メタデータ) (2026-05-08T09:37:30Z) - OPSD Compresses What RLVR Teaches: A Post-RL Compaction Stage for Reasoning Models [12.17078443900398]
RLVR(Reinforcement Learning with Verifiable Rewards)の代替として,オンライン自己蒸留(On-Policy Self-Distillation, OPSD)が最近登場した。
考察可能な数学的推論では、OPSDは補正機構よりも圧縮機構として最も確実に振る舞う。
論文 参考訳(メタデータ) (2026-05-07T13:04:34Z) - Shorter Thoughts, Same Answers: Difficulty-Scaled Segment-Wise RL for CoT Compression [3.6889211112573985]
CoT(Chain-of- Thought)は推論の信頼性を向上させるが、トークンコストを増大させる。
ナイーブなRLベースの圧縮は、ユーザ対応の回答を好ましくないほど短縮することができる。
難スケールセグメンテーションワイズGRPOを提案する。
論文 参考訳(メタデータ) (2026-03-08T11:49:24Z) - Stepwise Penalization for Length-Efficient Chain-of-Thought Reasoning [66.22060690012512]
大規模な推論モデルは、より多くのテストタイム計算で改善されるが、しばしば過大評価され、正確さを向上することなくコストを上昇させる必要のない長い連鎖を生み出す。
本研究は,本質的な貢献に基づいて,ステップ間の長さ短縮を割り当てる,きめ細かいフレームワークであるSWAPを提案する。
論文 参考訳(メタデータ) (2026-02-27T20:23:59Z) - Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。
我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。
本稿では,Anchor-based Process Reward (APR)を提案する。
論文 参考訳(メタデータ) (2026-01-31T14:53:20Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。