論文の概要: Entropy-Guided Reasoning Compression
- arxiv url: http://arxiv.org/abs/2511.14258v1
- Date: Tue, 18 Nov 2025 08:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.01756
- Title: Entropy-Guided Reasoning Compression
- Title(参考訳): エントロピー誘導推論圧縮
- Authors: Hourun Zhu, Yang Gao, Wenlong Fei, Jiawei Li, Huashan Sun,
- Abstract要約: 大規模推論モデルのためのエントロピー誘導学習フレームワークを開発した。
エントロピーが下降するにつれて、モデルは簡潔な思考ステップを奨励することによって効率的な推論へと導かれる。
本手法は,ベースライン精度を維持したり,超えたりしながら,元の20%の推論長を圧縮する。
- 参考スコア(独自算出の注目度): 11.181525993239115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models have demonstrated remarkable performance on complex reasoning tasks, yet the excessive length of their chain-of-thought outputs remains a major practical bottleneck due to high computation cost and poor deployability. Existing compression methods have achieved partial success but overlook a crucial phenomenon in the training process -- the entropy conflict. During compression training, entropy decreases, leading to shorter reasoning but limited exploration, while accuracy-oriented objectives increase entropy, lengthening reasoning chains. This can cause the model to get stuck in a local dilemma. Our analysis further reveals the origin of the entropy conflict: many high-entropy tokens are logical connectors that receive larger gradients and are encouraged under the performance objective, while the compression objective simultaneously penalizes these potentially redundant connectors. This opposing pressure creates a direct source of entropy conflict. To address these issues, we adopt an entropy-guided training framework. As entropy descends, the model is guided toward efficient reasoning by encouraging concise thought steps; as entropy rises, exploration is reinforced under the compact reasoning mode to improve robustness. Experiments on six mathematical benchmarks show that our method compresses reasoning length to 20% of the original while maintaining or even surpassing baseline accuracy. Code and models will be released publicly.
- Abstract(参考訳): 大規模な推論モデルは複雑な推論タスクにおいて顕著な性能を示してきたが、そのチェーン・オブ・ソート・アウトプットの過剰な長さは、高い計算コストと低いデプロイ性のために、依然として大きなボトルネックとなっている。
既存の圧縮手法は部分的には成功したが、トレーニングプロセスにおいて重要な現象であるエントロピーの衝突を見落としている。
圧縮訓練中、エントロピーは減少し、推論が短いが探索が制限される一方、精度指向の目的はエントロピーを増大させ、推論連鎖を延長する。
これにより、モデルはローカルジレンマで立ち往生する可能性がある。
多くの高エントロピートークンは、より大きな勾配を受け取り、性能目標の下で奨励される論理コネクタであり、一方圧縮目的は、これらの潜在的に冗長なコネクタを同時にペナルティ化する。
この反対の圧力はエントロピー衝突の直接の源となる。
これらの問題に対処するため、エントロピー誘導トレーニングフレームワークを採用しています。
エントロピーが下降するにつれて、モデルは簡潔な思考ステップを奨励することで効率的な推論へと導かれ、エントロピーが上昇するにつれて、ロバスト性を改善するためにコンパクトな推論モードの下で探索が強化される。
6つの数学的ベンチマーク実験により,提案手法は基準値の精度を維持したり,超えたりしながら,元の20%までの長さの推論を圧縮することを示した。
コードとモデルは公開されます。
関連論文リスト
- DiffAdapt: Difficulty-Adaptive Reasoning for Token-Efficient LLM Inference [68.05879215304641]
最近のLarge Language Models (LLMs) は、目覚ましい問題解決能力を示すが、有用性が不明な長い思考トレースを生成することが多い。
私たちの仕事は効率を向上し、過度に考えずにハイパフォーマンスに到達できるようにすることを目標としています。
簡単な/Normal/Hard推論戦略を選択する軽量フレームワークである textbfDiffAdapt を紹介する。
論文 参考訳(メタデータ) (2025-10-22T15:16:06Z) - PEAR: Phase Entropy Aware Reward for Efficient Reasoning [23.381346604897246]
本稿では,位相依存型エントロピーを報酬設計に組み込んだ報酬機構であるPEARを紹介する。
4つのベンチマーク実験により、PEARはモデルスケール間の競争精度を維持しながら、応答長を一貫して減少させることが示された。
論文 参考訳(メタデータ) (2025-10-09T10:04:31Z) - Explore Briefly, Then Decide: Mitigating LLM Overthinking via Cumulative Entropy Regulation [82.62935304152239]
大規模言語モデル(LLM)は、長いチェーン・オブ・ソート(CoT)推論を用いた複雑な問題に対する顕著な推論能力を示した。
しばしば過度の思考に悩まされ、単純な問題に対して必要以上に長い推論ステップが生じる。
本稿では, 推論過程を通じて探索範囲を計測する新しい計量量であるToken Entropy Cumulative Average(TECA)を紹介する。
論文 参考訳(メタデータ) (2025-10-02T17:36:50Z) - Measuring Reasoning Utility in LLMs via Conditional Entropy Reduction [3.9481110638616617]
条件エントロピーを用いた各推論ステップにおいて, 解幅Yのモデルの不確実性を測定する。
また、誤った推論経路は正しい推論よりも長い傾向があり、長い推論が必ずしもより良い結果をもたらすとは限らないことを示唆している。
論文 参考訳(メタデータ) (2025-08-28T03:43:38Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - Adaptive Deep Reasoning: Triggering Deep Thinking When Needed [28.575411507835973]
大規模言語モデル(LLM)は、ロングチェーン推論による複雑なタスクの処理において、優れた機能を示している。
本稿では,問題複雑性に基づいて,短鎖と長鎖の推論チェーンを自律的に切り替える手法を提案する。
この進歩は、現実世界の応用のための大規模言語モデルにおける推論の実践性を高める。
論文 参考訳(メタデータ) (2025-05-26T15:08:51Z) - Entropy-Based Block Pruning for Efficient Large Language Models [81.18339597023187]
性能を維持しつつ効率を向上するエントロピー型プルーニング戦略を提案する。
経験的分析により、隠れ表現のエントロピーは初期ブロックでは減少するが、その後のほとんどのブロックでは徐々に増加することが明らかとなった。
論文 参考訳(メタデータ) (2025-04-04T03:42:34Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。