論文の概要: Measuring Reasoning Utility in LLMs via Conditional Entropy Reduction
- arxiv url: http://arxiv.org/abs/2508.20395v1
- Date: Thu, 28 Aug 2025 03:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.955759
- Title: Measuring Reasoning Utility in LLMs via Conditional Entropy Reduction
- Title(参考訳): 条件付きエントロピー低減によるLLMの共振性測定
- Authors: Xu Guo,
- Abstract要約: 条件エントロピーを用いた各推論ステップにおいて, 解幅Yのモデルの不確実性を測定する。
また、誤った推論経路は正しい推論よりも長い傾向があり、長い推論が必ずしもより良い結果をもたらすとは限らないことを示唆している。
- 参考スコア(独自算出の注目度): 3.9481110638616617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) often rely on generating intermediate reasoning steps to enhance accuracy. However, little work has examined how reasoning utility contributes to the final answer's correctness. Due to the stochastic nature of autoregressive generation, generating more context does not guarantee increased confidence in the answer. If we could predict, during generation, whether a reasoning step will be useful, we could stop early or prune ineffective steps, avoiding distractions in the final decision. We present an oracle study on MATH dataset, using Qwen2.5-32B and GPT-4o to generate reasoning chains, and then employing a separate model (Qwen3-8B) to quantify the utility of these chains for final accuracy. Specifically, we measure the model's uncertainty on the answer span Y at each reasoning step using conditional entropy (expected negative log-likelihood over the vocabulary) with context expanding step by step. Our results show a clear pattern: conditional entropy that decreases over steps is strongly associated with correct answers, whereas flat or increasing entropy often results in wrong answers. We also corroborate that incorrect reasoning paths tend to be longer than correct ones, suggesting that longer reasoning does not necessarily yield better outcomes. These findings serve as a foundation to inspire future work on designing efficient reasoning pipelines that detect and avoid unproductive reasoning early.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、しばしば精度を高めるために中間的推論ステップを生成することに依存している。
しかし、推理ユーティリティが最終回答の正しさにどのように貢献するかは、ほとんど研究されていない。
自己回帰生成の確率的な性質のため、より多くのコンテキストを生成することは、回答に対する信頼の高まりを保証しない。
もし、世代間において、推論ステップが有用かどうかを予測することができれば、最終決定の邪魔をせずに、早期または不効果的なステップを止めることができるでしょう。
そこで本研究では,Qwen2.5-32BとGPT-4oを用いたMATHデータセットのオーラルスタディを行い,そのモデル(Qwen3-8B)を用いて最終精度を定量化する。
具体的には、条件付きエントロピー(語彙上の負の対数様の予測)を用いて、各推論ステップにおいて、Y におけるモデルの不確かさを文脈拡大ステップで測定する。
その結果, 条件付きエントロピーが解答に強く結びついているのに対し, 平坦あるいは増大するエントロピーは解答の誤りをもたらすことが多かった。
また、誤った推論経路は正しい推論よりも長い傾向があり、長い推論が必ずしもより良い結果をもたらすとは限らないことを示唆している。
これらの発見は、非生産的推論を早期に検出し回避する効率的な推論パイプラインを設計するための将来の研究を促す基盤となる。
関連論文リスト
- Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Answer Convergence as a Signal for Early Stopping in Reasoning [7.60104447055814]
大型言語モデル(LLM)における思考の連鎖(CoT)の促進
提案手法は,(1)応答整合性による早期停止,(2)終末信号発生確率の向上,(3)内部アクティベーションに基づいていつ停止するかを学習する教師付き手法である。
論文 参考訳(メタデータ) (2025-06-03T07:20:54Z) - Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T14:30:02Z) - Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs [52.405085773954596]
大規模な言語モデル(LLM)は、単純な問題を克服し、不要に長いアウトプットを生成し、より難しいものを過小評価する傾向にある。
これは、モデルが問題の難しさを誤認し、応答長を適切に調整できないことを示唆している。
実験の結果, 許容精度を維持しつつ, 生成時間を大幅に短縮できることがわかった。
論文 参考訳(メタデータ) (2025-04-30T18:48:06Z) - Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか?
我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。
これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文 参考訳(メタデータ) (2025-04-29T12:39:07Z) - Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification [23.190823296729732]
本研究は,仮説モデルが解答正解性に関する情報を隠蔽状態の探索によって符号化するかどうかを考察する。
得られたプローブは、中間回答を高い精度で検証し、高度に校正されたスコアを生成する。
論文 参考訳(メタデータ) (2025-04-07T18:42:01Z) - Chain-of-Probe: Examining the Necessity and Accuracy of CoT Step-by-Step [81.50681925980135]
モデル推論における心の変化を探索する手法を提案する。
心的変化のパターンを解析することにより,モデルの推論の正しさを検証した。
我々の検証では、最終回答では正しいが、多くの応答が推論プロセスに誤りを含んでいることが明らかになった。
論文 参考訳(メタデータ) (2024-06-23T15:50:22Z) - Making Reasoning Matter: Measuring and Improving Faithfulness of Chain-of-Thought Reasoning [38.60086807496399]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの推論を求めると、よりよいパフォーマンスを示すことが示されている。
モデルの最終回答がどの程度、説明された推論ステップに忠実であるかは定かではない。
FRODOは、小さなLMを調整して正しい推論ステップを生成し、これらのステップに対して堅牢な推論を行うためのフレームワークである。
論文 参考訳(メタデータ) (2024-02-21T17:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。