論文の概要: Unveiling the Entropy Dynamics of Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2606.02020v1
- Date: Mon, 01 Jun 2026 10:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.786244
- Title: Unveiling the Entropy Dynamics of Chain-of-Thought Reasoning
- Title(参考訳): チェーン・オブ・サート推論のエントロピーダイナミクスの解明
- Authors: Ting Xu, Xu He, Yupu Lu, Jiankai Sun, Dong Li, Wai Lam, Jianye Hao,
- Abstract要約: 1)信頼性の高い -- 信頼性の高い -- 信頼性の高い領域での回答は高度に正確で安定したものになり、2)高冗長性 -- モデルは正しい回答に達した後ずっと経ってから不必要なトークンを生成する。
これらの特性はより効率的で信頼性の高い推論戦略を解き放つ。
- 参考スコア(独自算出の注目度): 81.57028614960576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the entropy dynamics of Chain-of-Thought (CoT) and uncovers a consistent two-phase structure: an Uncertainty Region of exploration transitioning sharply to a Confidence Region of convergence. We demonstrate that the Confidence Region possesses two critical properties: 1) High Reliability -- answers in the confidence region become highly accurate and stable, and 2) High Redundancy -- models generate unnecessary tokens long after reaching the correct answer. These properties unlock more efficient and reliable inference strategies: 1) Early Exit leverages reliability and redundancy to terminate computation safely when returns diminish, and 2)Test-Time Scaling uses the Confidence Region signal to prioritize converged trajectories. To operationalize these insights, we formulate Confidence Region detection as a sequential change-point detection problem, being the first to apply classical change-point methods to monitor CoT reasoning. Using the Cumulative Sum (CUSUM) algorithm, a statistically optimal change-point detector, we develop a training-free framework for real-time inference control. Experiments show our approach establishes a superior Pareto-frontier for early exit. CUSUM achieves 63.06% accuracy with 11.1% token reduction, outperforming DEER and Dynasor by 3.28% and 4.36% in accuracy respectively. For test-time scaling, CUSUM-weighted voting consistently outperforms self-consistency.
- Abstract(参考訳): 本稿では,CoT(Chain-of-Thought)のエントロピーダイナミクスを考察し,一貫した2相構造を明らかにする。
信頼領域には2つの重要な特性があることを実証する。
1)信頼性の高い -- 信頼領域の回答は極めて正確で安定し、そして
2) 高い冗長性 -- モデルは正しい回答に到達してからずっと経ち、不要なトークンを生成します。
これらのプロパティはより効率的で信頼性の高い推論戦略を解きます。
1)Early Exitは信頼性と冗長性を生かしてリターンが減少すると安全に計算を終了し、2)Test-Time Scalingは信頼領域信号を使用して収束軌道を優先順位付けする。
これらの知見を運用するために,信頼性領域検出を逐次変化点検出問題として定式化し,CoT推論の監視に古典的変化点法を最初に適用した。
The Cumulative Sum (CUSUM) algorithm, a statistically optimal change-point detector, we developed a training-free framework for real-time inference control。
実験により,我々のアプローチは早期退院に優れたパレート・フロンティアを確立することを示す。
CUSUMは11.1%のトークン削減で63.06%の精度を達成し、DeERとDynsorをそれぞれ3.28%、Dynsorを4.36%の精度で上回っている。
テストタイムのスケーリングでは、CUSUMの重み付け投票が自己整合性を上回っている。
関連論文リスト
- Confidence-Aware Alignment Makes Reasoning LLMs More Reliable [65.44962502963378]
CASPOは、トークンレベルの信頼度とステップワイドな論理的正しさを、個別の報酬モデルをトレーニングせずに整合させるフレームワークである。
推論中、信頼を意識した思考(CaT)を提案し、不確実な推論枝を無視可能なO(V)レイテンシで動的に生成する。
10のベンチマークと複数のモデルファミリでの実験では、CASPOは推論の信頼性と推論効率を一貫して改善している。
論文 参考訳(メタデータ) (2026-05-08T07:08:25Z) - Process Supervision of Confidence Margin for Calibrated LLM Reasoning [52.373121066425455]
強化学習(RL)によるテスト時間計算のスケーリングは,大規模言語モデル(LLM)推論能力を向上させるための信頼性の高い経路として登場した。
しかし、結果に基づく報酬は、しばしばモデルに過信感を与え、幻覚、信頼できない信頼ベースの制御、不要な計算割り当てをもたらす。
本稿では,信頼性と信頼性を両立させるキャリブレーションを意識したRLフレームワークであるReinforcement Learning with Confidence Margin(textbfRLCM)を紹介する。
論文 参考訳(メタデータ) (2026-04-25T14:40:13Z) - Think Twice Before You Write -- an Entropy-based Decoding Strategy to Enhance LLM Reasoning [32.332197731504046]
デコード戦略は、大きな言語モデルの推論能力を形成する上で、中心的な役割を果たす。
グレディ復号やビームサーチといった従来の手法は、しばしばエラーの伝播に悩まされる。
本稿では,トークンレベルの適応性を世代に導入するエントロピー誘導復号化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-10T23:08:26Z) - Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation [7.3923284353934875]
本稿では,大規模言語モデル(LLM)出力の正しさと密接に一致したRAGシステムにおける信頼度推定手法を提案する。
提案手法は、生のフィードフォワードネットワーク(FFN)を自己回帰信号として活用することにより、事前の不確実性定量化手法を拡張した。
我々の結果は、アクティベーションに基づく信頼度モデリングが、信頼性の高いRAGデプロイメントへのスケーラブルでアーキテクチャを意識したパスを提供することを示した。
論文 参考訳(メタデータ) (2025-10-15T16:55:56Z) - Deterministic Object Pose Confidence Region Estimation [13.545295537964337]
6次元ポーズ信頼領域推定は不確実性定量化の重要な方向として現れた。
現在のサンプリングベースのアプローチは、実践的なデプロイメントを著しく阻害する限界に悩まされている。
ポーズ信頼領域を推定する決定論的かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-06-28T02:03:34Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Tighter Confidence Bounds for Sequential Kernel Regression [3.683202928838613]
我々は、シーケンシャルカーネル回帰のための新しい信頼境界を確立するために、マーチンゲールテール不等式を使用する。
私たちの信頼境界は円錐プログラムを解くことで計算できるが、この素バージョンはすぐに非現実的になる。
信頼性境界が既存のものを置き換えると、KernelUCBアルゴリズムはより優れた経験的性能、最悪のパフォーマンス保証、それに匹敵する計算コストが得られます。
論文 参考訳(メタデータ) (2024-03-19T13:47:35Z) - TRUST-LAPSE: An Explainable and Actionable Mistrust Scoring Framework
for Model Monitoring [4.262769931159288]
連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。
我々は,各入力サンプルのモデル予測の信頼性を,潜時空間埋め込みのシーケンスを用いて評価する。
AUROCs 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs)
論文 参考訳(メタデータ) (2022-07-22T18:32:38Z) - Optimal Change-Point Detection with Training Sequences in the Large and
Moderate Deviations Regimes [72.68201611113673]
本稿では,情報理論の観点から,新しいオフライン変化点検出問題について検討する。
基礎となる事前および変更後分布の知識は分かっておらず、利用可能なトレーニングシーケンスからのみ学習できると仮定する。
論文 参考訳(メタデータ) (2020-03-13T23:39:40Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。