論文の概要: EDIS: Diagnosing LLM Reasoning via Entropy Dynamics
- arxiv url: http://arxiv.org/abs/2602.01288v1
- Date: Sun, 01 Feb 2026 15:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.696844
- Title: EDIS: Diagnosing LLM Reasoning via Entropy Dynamics
- Title(参考訳): EDIS:エントロピーダイナミクスによるLLM推論の診断
- Authors: Chenghua Zhu, Siyan Wu, Xiangkang Zeng, Zishan Xu, Zhaolu Kang, Yifu Guo, Yuquan Lu, Junduan Huang, Guojing Zhou,
- Abstract要約: 生成過程における信頼の時空間的進化は,集計統計単独よりも豊かな情報をもたらすことを示す。
本稿では,エントロピー進化における不安定性を定量化するための軌道レベルの指標であるエントロピーダイナミクス不安定スコア(textbfEDIS)を紹介する。
- 参考スコア(独自算出の注目度): 3.858418431840288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entropy-based confidence signals are increasingly leveraged to improve reasoning in large language models (LLMs), yet existing approaches treat confidence as a static quantity -- typically aggregated over tokens. We show that the \emph{temporal evolution} of confidence during generation carries richer information than aggregate statistics alone. Analyzing token-level entropy trajectories, we identify characteristic patterns distinguishing correct from incorrect reasoning: erroneous solutions exhibit unstable dynamics, including burst spikes (sustained uncertainty growth) and peak-valley spikes (sharp rebounds following transient confidence). These patterns persist across models and training stages, suggesting they reflect intrinsic properties of reasoning failure rather than superficial noise. To formalize this observation, we introduce the Entropy Dynamics Instability Score (\textbf{EDIS}), a trajectory-level metric quantifying instability in entropy evolution. EDIS serves as an effective diagnostic signal for inference-time selection, substantially improving reasoning accuracy, and offers a promising direction for training-time sample curation. Our findings establish entropy dynamics as an underexplored yet informative lens for understanding and improving LLM reasoning.
- Abstract(参考訳): エントロピーベースの信頼信号は、大規模言語モデル(LLM)の推論を改善するために、ますます活用されている。
生成時の信頼度は,集計統計だけでは得られないほど豊かな情報を持っていることを示す。
不正解は、バースト・スパイク(持続的不確実性成長)やピーク・ヴァレー・スパイク(過渡的信頼に続くシャープ・リバウンド)を含む不安定なダイナミクスを示す。
これらのパターンはモデルや訓練段階にわたって継続しており、表面ノイズよりも推論失敗の本質的な特性を反映していることを示している。
この観測を形式化するために、エントロピー進化における不安定性を定量化する軌跡レベル計量であるエントロピーダイナミクス不安定スコア(\textbf{EDIS})を導入する。
EDISは推論時選択のための効果的な診断信号として機能し、推論精度を大幅に改善し、トレーニング時サンプルキュレーションに有望な方向を提供する。
本研究は,LLM推論の理解と改善を目的とした,未探索かつ情報的なレンズとしてエントロピーダイナミクスを確立した。
関連論文リスト
- From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Thinking, Faithful and Stable: Mitigating Hallucinations in LLMs [0.4115305983711515]
大規模言語モデル(LLM)のための自己修正フレームワークを開発する。
最終回答の正しさのみに頼るのではなく、細かな不確実性信号を利用する。
我々は不当な高信頼とエントロピースパイクをペナル化する複合報酬関数を設計する。
論文 参考訳(メタデータ) (2025-11-19T23:09:26Z) - Modeling Uncertainty Trends for Timely Retrieval in Dynamic RAG [35.96258615258145]
本稿では,トークンレベルの不確実性のダイナミクスをモデル化し,最適検索タイミングを決定するトレーニングフリーな手法であるEntropy-Trend Constraint(ETC)を紹介する。
ETCは、検索周波数を減少させながら、強いベースラインを一貫して上回る。
プラグアンドプレイで、モデルに依存しず、既存のデコードパイプラインに簡単に統合できる。
論文 参考訳(メタデータ) (2025-11-13T05:28:02Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - Identifiable learning of dissipative dynamics [25.409059056398124]
I-OnsagerNetは、散逸ダイナミクスを直接トラジェクトリから学習するニューラルネットワークフレームワークである。
I-OnsagerNetはOnsagerの原理を拡張して、学習されたポテンシャルが定常密度から得られることを保証している。
このアプローチはエントロピーの生成を計算し、不可逆性を定量化し、平衡から逸脱を検出し定量化する原則的な方法を提供する。
論文 参考訳(メタデータ) (2025-10-28T07:57:14Z) - Rethinking Entropy Interventions in RLVR: An Entropy Change Perspective [11.65148836911294]
エントロピー崩壊は政策の多様性の急激な喪失であり、探検と爆発の不均衡から起因し、一般化の欠如につながっている。
最近のエントロピー・インターベンション法は、色覚エントロピーの崩壊を防ぐことを目的としているが、その基盤となるメカニズムは明らかになっていない。
エントロピー変化を考慮した再重み付け方式,すなわち,再重み付け(STEER)によるトークンレベルのエントロピーチェンジEの安定化を提案する。
論文 参考訳(メタデータ) (2025-10-11T10:17:38Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Uncertainty Under the Curve: A Sequence-Level Entropy Area Metric for Reasoning LLM [6.7259418009996]
エントロピー領域スコア(英語: Entropy Area Score, EAS)は、大規模言語モデル(LLM)の解答生成過程における不確かさを定量化する指標である。
EASは効率的かつ解釈可能であり、LLMトレーニングにおける不確実性モデリングとデータ品質評価のための実用的なツールを提供する。
論文 参考訳(メタデータ) (2025-08-28T03:16:15Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。