論文の概要: Entropy trajectory shape predicts LLM reasoning reliability: A diagnostic study of uncertainty dynamics in chain-of-thought
- arxiv url: http://arxiv.org/abs/2603.18940v1
- Date: Thu, 19 Mar 2026 14:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.190366
- Title: Entropy trajectory shape predicts LLM reasoning reliability: A diagnostic study of uncertainty dynamics in chain-of-thought
- Title(参考訳): エントロピー軌道形状がLCM推論信頼性を予測する:チェーンオブ思考における不確実性ダイナミクスの診断的研究
- Authors: Xinghao Zhao,
- Abstract要約: 本研究は,ステップごとの解答完了をサンプリングし,正当性を予測することによって,推論ステップ間の不確実性のダイナミクスの形状を把握できるかどうかを考察する。
エントロピー-軌道単調性(Entropy-trajectory monotonicity)を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought (CoT) reasoning improves LLM accuracy, yet detecting failures cheaply remains elusive. We study whether the shape of uncertainty dynamics across reasoning steps--captured by sampling a few answer completions per step--predicts correctness. We introduce entropy-trajectory monotonicity: a chain is monotone if its per-step answer-distribution entropy decreases at every step. On GSM8K (n=300) with Qwen2.5-7B-Instruct, monotone chains achieve 68.8% accuracy vs. 46.8% for non-monotone chains (+21.9 pp; Fisher's p=0.0005; OR=2.50). Critically, total entropy reduction is not predictive ($ρ$=-0.06, p=0.31), revealing a shape-over-magnitude dissociation: whether entropy decreases at every step matters, not how much. Violation count 0/1/2 gives 68.8%/50.8%/28.6% accuracy. Token log-probability confidence worsens in calibration with step depth (ECE: 0.186->0.312), and monotonicity achieves +5.8 pp at 73.7% coverage, outperforming scalar baselines at approx 1,500 tokens/question--1/8 the cost of 40-chain self-consistency. Results replicate on Mistral-7B (n=300): monotone chains reach 72.3% vs. 37.6% (+34.7 pp; OR=4.33). Structural properties of uncertainty trajectories are thus more informative than aggregate measures.
- Abstract(参考訳): チェーン・オブ・シント(CoT)推論はLSMの精度を向上するが、安価に故障を検出できる。
本研究は,ステップごとの解答完了をサンプリングし,正当性を予測することによって,推論ステップ間の不確実性のダイナミクスの形状を把握できるかどうかを考察する。
エントロピー-軌道単調性(Entropy-trajectory monotonicity): 連鎖がモノトンである場合、そのステップごとの解答-分布エントロピーが各ステップで減少する。
Qwen2.5-7B-インストラクタを持つGSM8K(n=300)では、モノトン鎖は68.8%、非モノトン鎖は46.8%である(+21.9 pp; Fisher's p=0.0005; OR=2.50)。
臨界的に、全エントロピーの減少は予測的ではない(ρ$=-0.06, p=0.31)。
0/1/2は68.8%/50.8%/28.6%の精度である。
Token log-probability confidence worse in calibration with step depth (ECE: 0.186->0.312) and monotonicity achieves +5.8 pp at 73.7% covered, outform scalar baselines at approx 1500 tokens/question--1/8 as cost of 40-chain self-consistency。
Mistral-7B (n=300): モノトン鎖は72.3%、37.6%(+34.7 pp; OR=4.33)に達する。
したがって、不確実性軌跡の構造的特性は集合的測度よりも有益である。
関連論文リスト
- When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning [16.505918019260964]
信頼性と信頼性の低い予測を混合することにより,最先端モデル(Qwen2.5-Math-7B)の精度が61%向上することが実証された。
正しい予測の18.4%は安定で忠実な推論を採用しており、81.6%は計算的に一貫性のない経路を通して現れる。
論文 参考訳(メタデータ) (2026-03-03T19:43:36Z) - STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens [38.425692691443764]
既存の強化学習(RL)ファインチューニング手法は、安定性を維持するためにエントロピー正則化と再重み付けに大きく依存している。
実際には、彼らはしばしば後期的なパフォーマンスの崩壊に悩まされ、推論品質の低下と不安定なトレーニングにつながります。
トレーニングの不安定性は、約0.01%の少量のトークンによって引き起こされる可能性がある。
安定かつ効果的な大規模モデル改良を促進するSTAPO(Spurious-Token-Aware Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2026-02-17T14:46:48Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Hallucinations Live in Variance [0.0]
ベンチマークは、モデルが正しいかどうかを測定する。
幻覚は、意味論的に等価なプロンプトが一貫性のない内部経路を活性化し、発散した出力を生成するときに生じる。
我々はこれを,パラフレーズ一貫性 (PC@k) によって測定されたセマンティック安定性 (SS) で定式化し,kパラフレーズを生成し,それぞれをgreedyデコードし,計算モード合意する。
密度の高いQwen3-0.6Bは23.8%に留まり、32%の間隔で55.9%に上昇する。
論文 参考訳(メタデータ) (2026-01-11T20:41:51Z) - Quantile Advantage Estimation for Entropy-Safe Reasoning [44.192277495613695]
RLVRによる強化学習はLLM推論を強化するが、エントロピー崩壊とエントロピー爆発の間のトレーニングはしばしば振動する
いずれのハザードも値のないRLで使われる平均ベースラインに辿り着くが、これは不適切に報酬のアウトリージの下で負のアドバンテージサンプルをペナルティ化する。
本稿では,平均値をグループ単位のK量子基底線に置き換えた量子アドバンテージ推定(QAE)を提案する。
論文 参考訳(メタデータ) (2025-09-26T17:37:52Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and
Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。
一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文 参考訳(メタデータ) (2020-04-09T17:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。