論文の概要: Taming the Thinker: Conditional Entropy Shaping for Adaptive LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.19358v1
- Date: Tue, 19 May 2026 04:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.128371
- Title: Taming the Thinker: Conditional Entropy Shaping for Adaptive LLM Reasoning
- Title(参考訳): 思考者のタミング:適応LDM推論のための条件付きエントロピー整形
- Authors: Shuyu Wei, Jian Sun, Delai Qiu, Yining Wang, Shengping Liu, Jiaen Liang, Ying Fu, Wei Huang, Jitao Sang,
- Abstract要約: Conditional Entropy Shaping (CES)はトークンレベルの応答エントロピーを動的に制御するフレームワークである。
CESは、DAPOに対する応答長を減少させながら、平均精度を継続的に改善する。
- 参考スコア(独自算出の注目度): 63.36243250685778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entropy-based deep reasoning has emerged as a promising direction for improving the reasoning capabilities of Large Language Models (LLMs), but existing methods often either increase response length indiscriminately or shorten responses at the cost of accuracy. To better balance this trade-off, we introduce Conditional Entropy Shaping (CES), a framework that dynamically controls token-level response entropy, enabling LLMs to produce concise solutions on simple problems while encouraging deeper exploration on hard ones. Built on DAPO, CES uses token-level entropy as an uncertainty signal and applies a conditional bidirectional policy: it penalizes high-entropy "forking point" tokens on correct reasoning paths to improve conciseness, and rewards them on incorrect paths to encourage exploration and error correction. We implement CES on DeepSeek-R1-Distill-7B and evaluate it on 12 mathematical benchmarks. CES consistently improves average accuracy while reducing response length relative to DAPO, and supplementary experiments show similar trends on a smaller 1.5B backbone and on out-of-domain benchmarks.
- Abstract(参考訳): エントロピーに基づく深い推論は、Large Language Models (LLMs) の推論能力を改善するための有望な方向として現れてきたが、既存の手法は、しばしば応答長を無差別に増加させるか、精度を犠牲にして応答を短くするかのいずれかである。
このトレードオフのバランスを改善するために,トークンレベルの応答エントロピーを動的に制御するフレームワークであるConditional Entropy Shaping(CES)を導入する。
DAPO上に構築されたCESは、トークンレベルのエントロピーを不確実性信号として使用し、条件付き双方向ポリシーを適用している。
We implement CES on DeepSeek-R1-Distill-7B and evaluate it on 12 mathematical benchmarks。
CESはDAPOと比較して応答長を減らしながら平均精度を継続的に改善し、補助的な実験は1.5Bのバックボーンとドメイン外のベンチマークで同様の傾向を示している。
関連論文リスト
- Entropy Polarity in Reinforcement Fine-Tuning: Direction, Asymmetry, and Control [77.8471519867791]
実験的に、エントロピー極性はエントロピーの変化を確実に予測することを示した。
本稿では、両極性分岐を保護し、有利な再重み付けによるエントロピー制御を実装するPAPO(Polarity-Aware Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2026-05-12T08:47:05Z) - ERPO: Token-Level Entropy-Regulated Policy Optimization for Large Reasoning Models [3.463914032107119]
グループ相対政策最適化(GRPO)は一般にすべてのトークンに対して一様でシーケンスレベルの利点を割り当てる。
本稿では,最適化の焦点を粗いシーケンスからきめ細かいトークンダイナミクスに移行するエントロピー制御ポリシ最適化(ERPO)を提案する。
論文 参考訳(メタデータ) (2026-03-30T09:20:25Z) - Compress the Easy, Explore the Hard: Difficulty-Aware Entropy Regularization for Efficient LLM Reasoning [39.72119774004103]
CoT(Chain-of-Thought)は、複雑な推論タスクに取り組むために、LLM(Large Language Models)を実質的に強化した。
明示的な推論ステップの冗長な性質は、推論の遅延と計算コストを禁止し、現実のデプロイメントを制限します。
本稿では,RLに基づく効率的な推論手法であるCEEH(Explore Harding)を提案する。
論文 参考訳(メタデータ) (2026-02-26T05:47:30Z) - Beyond High-Entropy Exploration: Correctness-Aware Low-Entropy Segment-Based Advantage Shaping for Reasoning LLMs [6.948242693954442]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力向上のための中心的なアプローチとなっている。
低エントロピーセグメントに対してきめ細かな優位変調を行う,正当性を考慮した強化フレームワークであるLESSを提案する。
論文 参考訳(メタデータ) (2025-11-30T14:19:36Z) - ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping [54.37497695483689]
本稿では,タスクの難易度に基づいて探索作業を動的に割り当てる適応推論のための統合フレームワークであるARESを提案する。
単一トークンエントロピーはノイズが多いが,高いウィンドウエントロピー(HWE)トークンは推論クリティカルな瞬間を確実に捉えることができる。
In the Adaptive Cold-Start stage, we curate multimodal and textual data paired with reasoning traces of length proportional to problem difficulty。
第2段階では,HWEトークンを探索トリガとする適応エントロピーポリシー最適化(AEPO)を開発する。
論文 参考訳(メタデータ) (2025-10-09T17:03:28Z) - PEAR: Phase Entropy Aware Reward for Efficient Reasoning [23.381346604897246]
本稿では,位相依存型エントロピーを報酬設計に組み込んだ報酬機構であるPEARを紹介する。
4つのベンチマーク実験により、PEARはモデルスケール間の競争精度を維持しながら、応答長を一貫して減少させることが示された。
論文 参考訳(メタデータ) (2025-10-09T10:04:31Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。