論文の概要: The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?
- arxiv url: http://arxiv.org/abs/2604.06192v1
- Date: Wed, 11 Mar 2026 18:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.613504
- Title: The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?
- Title(参考訳): ステップワイドインフォーマティブネス推定:なぜエントロピーダイナミクスとLLMの関連性は関連しているのか?
- Authors: Mar Gonzàlez I Català, Haitz Sáez de Ocáriz Borde, George D. Montañez, Pietro Liò,
- Abstract要約: 生成が進むにつれて,推論プレフィックスが回答関連情報を蓄積することを示す。
我々は、条件付き回答エントロピー力学を正しさにリンクするSIAの観測可能なシグネチャを導出する。
- 参考スコア(独自算出の注目度): 14.977096886054142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work uses entropy-based signals at multiple representation levels to study reasoning in large language models, but the field remains largely empirical. A central unresolved puzzle is why internal entropy dynamics, defined under the predictive distribution of a model, correlate so robustly with external correctness given by the ground-truth answer. In this paper, we argue that this correlation arises because autoregressive models reason correctly when they accumulate information about the true answer via answer-informative prefixes. We formalize this intuition via the Stepwise Informativeness Assumption (SIA), which states that reasoning prefixes accumulate answer-relevant information in expectation as generation progresses. We show that SIA naturally emerges from maximum-likelihood optimization on human reasoning traces and is reinforced by standard fine-tuning and reinforcement-learning pipelines. We then derive observable signatures of SIA linking conditional answer entropy dynamics to correctness. We empirically test SIA across multiple reasoning benchmarks (GSM8K, ARC, SVAMP) and a diverse set of open-weight LLMs (Gemma-2, LLaMA-3.2, Qwen-2.5, DeepSeek and Olmo variants), showing that training induces it and that correct traces exhibit characteristic conditional answer entropy patterns.
- Abstract(参考訳): 近年の研究では、エントロピーに基づく信号を複数の表現レベルで用いて、大きな言語モデルにおける推論を研究しているが、この分野はほとんど経験的のままである。
中心的未解決のパズルは、モデルの予測分布の下で定義される内部エントロピー力学が、基底真実解によって与えられる外部の正しさと強く相関する理由である。
本稿では, 自己回帰モデルが, 正解に関する情報を解答形接頭辞で蓄積した場合に, 正解を正しく推論するので, この相関が生じることを論じる。
我々は、この直観をステップワイズ・インフォーマティブネス・アセプション(SIA)によって定式化し、このことは、生成が進むにつれて、推論プレフィックスが期待される回答関連情報を蓄積することを意味する。
そこで本研究では,SIAが人間の推論トレース上での最大様相最適化から自然に出現し,標準的な微調整および強化学習パイプラインによって強化されていることを示す。
次に、条件付き回答エントロピー力学を正当性にリンクするSIAの観測可能なシグネチャを導出する。
我々は、複数の推論ベンチマーク(GSM8K, ARC, SVAMP)と、様々なオープンウェイトLLM(Gemma-2, LLaMA-3.2, Qwen-2.5, DeepSeek, Olmo variants)でSIAを実証的にテストし、トレーニングがそれを誘発し、正しいトレースが特徴的な条件付き回答エントロピーパターンを示すことを示した。
関連論文リスト
- Entropy and Attention Dynamics in Small Language Models: A Trace-Level Structural Analysis on the TruthfulQA Benchmark [0.0]
小型言語モデル(SLM)は、エッジデバイスや他のリソース制約のある設定に徐々にデプロイされている。
現在の評価手法は、内部モデルの振る舞いが出力にどのように影響するかを説明することなく、最終的な精度や幻覚率に依存している。
本研究では,TruthfulQAデータセットを用いて評価したSLMにおけるエントロピーとアテンションダイナミクスのトレースレベル解析を紹介する。
論文 参考訳(メタデータ) (2026-04-04T04:35:20Z) - Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding [38.5840117402958]
トークン確率分布から適切な文脈推論情報を直接抽出できることを論じる。
本稿では,効率的なプラグアンドプレイデコーディング戦略であるLatent Entropy-Aware Decodingを提案する。
このモデルは高エントロピー状態下での確率重み付き連続埋め込みを採用し、エントロピーが減少するにつれて離散トークン埋め込みに遷移する。
論文 参考訳(メタデータ) (2026-03-09T12:47:54Z) - Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文 参考訳(メタデータ) (2026-03-03T18:48:15Z) - EDIS: Diagnosing LLM Reasoning via Entropy Dynamics [3.858418431840288]
生成過程における信頼の時空間的進化は,集計統計単独よりも豊かな情報をもたらすことを示す。
本稿では,エントロピー進化における不安定性を定量化するための軌道レベルの指標であるエントロピーダイナミクス不安定スコア(textbfEDIS)を紹介する。
論文 参考訳(メタデータ) (2026-02-01T15:43:50Z) - How Does Unfaithful Reasoning Emerge from Autoregressive Training? A Study of Synthetic Experiments [1.529342790344802]
大型言語モデル(LLM)が生成するチェーン・オブ・シント(CoT)推論は、しばしば不信である。
我々は、忠実なCoT推論を構成するもの、そして自己回帰訓練から不誠実が如何に現れるかを研究する。
トレーニングノイズが臨界しきい値以下である場合にのみ、モデルが基礎となる算術規則に因果的に従うという忠実な推論を学習できることが分かりました。
論文 参考訳(メタデータ) (2026-02-01T04:56:18Z) - Learning to Reason in LLMs by Expectation Maximization [55.721496945401846]
我々は推論を潜在変数モデルとして定式化し、推論を学ぶための期待最大化目標を導出する。
この見解はEMと現代の報酬に基づく最適化を結びつけるものであり、正しい答えを正当化する有理性を生成するサンプリング分布を設計することの主な課題であることを示している。
論文 参考訳(メタデータ) (2025-12-23T08:56:49Z) - Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning [75.79451512757844]
基礎モデルは幅広い知識を示すが、タスク固有の推論は限定的である。
RLVRと推論スケーリングは、RLVRや推論スケーリングのようなトレーニング後の戦略を動機付けます。
RLVRはスキューズ効果を誘発し,推論エントロピーを減少させ,正しい経路を忘れることを示した。
論文 参考訳(メタデータ) (2025-11-10T18:25:26Z) - Revisiting the UID Hypothesis in LLM Reasoning Traces [10.833681318622467]
大規模言語モデル(LLM)は、ステップバイステップのChain-of-Thought(CoT)推論を用いてしばしば問題を解決する。
推論トレース内の情報フローを分析するために,エントロピーに基づくメトリクスを導入する。
LLMにおける推論の成功は、全世界的に一様ではない。
論文 参考訳(メタデータ) (2025-10-11T21:19:17Z) - Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。
我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。
複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文 参考訳(メタデータ) (2024-02-05T18:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。