論文の概要: PEAR: Phase Entropy Aware Reward for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2510.08026v1
- Date: Thu, 09 Oct 2025 10:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.0009
- Title: PEAR: Phase Entropy Aware Reward for Efficient Reasoning
- Title(参考訳): PEAR: 効率的な推論のための位相エントロピー
- Authors: Chen Huang, Wei Lu, Wenxuan Zhang,
- Abstract要約: 本稿では,位相依存型エントロピーを報酬設計に組み込んだ報酬機構であるPEARを紹介する。
4つのベンチマーク実験により、PEARはモデルスケール間の競争精度を維持しながら、応答長を一貫して減少させることが示された。
- 参考スコア(独自算出の注目度): 23.381346604897246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have achieved impressive performance on complex reasoning tasks by generating detailed chain-of-thought (CoT) explanations. However, these responses are often excessively long, containing redundant reasoning steps that inflate inference cost and reduce usability. Controlling the length of generated reasoning without sacrificing accuracy remains an open challenge. Through a systematic empirical analysis, we reveal a consistent positive correlation between model entropy and response length at different reasoning stages across diverse LRMs: the thinking phase exhibits higher entropy, reflecting exploratory behavior of longer responses, while the final answer phase shows lower entropy, indicating a more deterministic solution.This observation suggests that entropy at different reasoning stages can serve as a control knob for balancing conciseness and performance. Based on this insight, this paper introduces Phase Entropy Aware Reward (PEAR), a reward mechanism that incorporating phase-dependent entropy into the reward design. Instead of treating all tokens uniformly, PEAR penalize excessive entropy during the thinking phase and allowing moderate exploration at the final answer phase, which encourages models to generate concise reasoning traces that retain sufficient flexibility to solve the task correctly. This enables adaptive control of response length without relying on explicit length targets or rigid truncation rules. Extensive experiments across four benchmarks demonstrate that PEAR consistently reduces response length while sustaining competitive accuracy across model scales. In addition, PEAR demonstrates strong out-of-distribution (OOD) robustness beyond the training distribution. Our code is available at: https://github.com/iNLP-Lab/PEAR.
- Abstract(参考訳): 大規模推論モデル(LRM)は、複雑な推論タスクにおいて、詳細なチェーン・オブ・シークレット(CoT)の説明を生成することで、優れたパフォーマンスを実現している。
しかしながら、これらの応答は、しばしば過度に長く、推論コストを増大させ、ユーザビリティを低下させる冗長な推論ステップを含む。
精度を犠牲にすることなく生成した推論の長さを制御することは、未解決の課題である。
本研究では,様々な推論段階におけるモデルエントロピーと応答長の一致した正の相関関係を明らかにする。思考相は高いエントロピーを示し,より長い応答の探索的振る舞いを反映し,最終応答相は低いエントロピーを示し,より決定論的解を示す。この観察は,異なる推論段階におけるエントロピーが,簡潔さと性能のバランスをとるための制御ノブとして機能することを示唆している。
本稿では,位相依存型エントロピーを報酬設計に組み込む報奨機構であるPEARを紹介する。
すべてのトークンを均一に扱う代わりに、PEARは思考フェーズ中に過剰なエントロピーを罰し、最終回答フェーズで適度な探索を可能にする。
これにより、明確な長さの目標や厳密なトラニケートルールに頼ることなく、応答長を適応的に制御できる。
4つのベンチマークによる大規模な実験により、PEARはモデルスケール間の競争精度を維持しながら、応答長を一貫して減少させることが示された。
さらに、PEARはトレーニング分布を超えた強いアウト・オブ・ディストリビューション(OOD)の堅牢性を示している。
私たちのコードは、https://github.com/iNLP-Lab/PEAR.comで利用可能です。
関連論文リスト
- Explore Briefly, Then Decide: Mitigating LLM Overthinking via Cumulative Entropy Regulation [82.62935304152239]
大規模言語モデル(LLM)は、長いチェーン・オブ・ソート(CoT)推論を用いた複雑な問題に対する顕著な推論能力を示した。
しばしば過度の思考に悩まされ、単純な問題に対して必要以上に長い推論ステップが生じる。
本稿では, 推論過程を通じて探索範囲を計測する新しい計量量であるToken Entropy Cumulative Average(TECA)を紹介する。
論文 参考訳(メタデータ) (2025-10-02T17:36:50Z) - Measuring Reasoning Utility in LLMs via Conditional Entropy Reduction [3.9481110638616617]
条件エントロピーを用いた各推論ステップにおいて, 解幅Yのモデルの不確実性を測定する。
また、誤った推論経路は正しい推論よりも長い傾向があり、長い推論が必ずしもより良い結果をもたらすとは限らないことを示唆している。
論文 参考訳(メタデータ) (2025-08-28T03:43:38Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Test-time Prompt Intervention [16.9160718076699]
テストタイム・プロンプト・インターベンションのための新しいフレームワークであるPIを提案する。
PIは推論中の推論パスを動的にガイドし、規制するインターフェースを提供する。
これにより、人間の問題解決の専門知識と認知科学の原則がLLMの推論プロセスにシームレスに統合される。
論文 参考訳(メタデータ) (2025-08-04T15:17:13Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - Critical Thinking: Which Kinds of Complexity Govern Optimal Reasoning Length? [72.70486097967124]
決定論的有限オートマトン(DFAs)を用いたフレームワークの定式化
正しい解を生成する確率が最大になるような推論トークンが最適に存在することを示す。
新たな問題に対する推論トークンの最適個数を予測し、最適でない回答をフィルタリングすることで、一貫した精度の向上が得られる。
論文 参考訳(メタデータ) (2025-04-02T17:45:58Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。