論文の概要: Uncertainty Under the Curve: A Sequence-Level Entropy Area Metric for Reasoning LLM
- arxiv url: http://arxiv.org/abs/2508.20384v1
- Date: Thu, 28 Aug 2025 03:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.930444
- Title: Uncertainty Under the Curve: A Sequence-Level Entropy Area Metric for Reasoning LLM
- Title(参考訳): 曲線下の不確実性: LLM 推論のためのシーケンスレベルエントロピー領域
- Authors: Yongfu Zhu, Lin Sun, Guangxiang Zhao, Weihong Lin, Xiangzheng Zhang,
- Abstract要約: エントロピー領域スコア(英語: Entropy Area Score, EAS)は、大規模言語モデル(LLM)の解答生成過程における不確かさを定量化する指標である。
EASは効率的かつ解釈可能であり、LLMトレーニングにおける不確実性モデリングとデータ品質評価のための実用的なツールを提供する。
- 参考スコア(独自算出の注目度): 6.7259418009996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce Entropy Area Score (EAS), a simple yet effective metric to quantify uncertainty in the answer generation process of reasoning large language models (LLMs). EAS requires neither external models nor repeated sampling, it integrates token-level predictive entropy from the model itself to capture the evolution of uncertainty during generation. Empirical results show that EAS is strongly correlated with answer entropy across models and datasets. In training data selection, EAS identifies high-potential samples and consistently outperforms Pass Rate filtering under equal sample budgets, improving student model accuracy on math benchmarks. EAS is both efficient and interpretable, offering a practical tool for uncertainty modeling and data quality assessment in LLM training.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)の解答生成過程における不確実性を定量化するための簡易かつ効果的な指標であるEntropy Area Score(EAS)を紹介する。
EASは外部モデルも繰り返しサンプリングも必要とせず、生成中の不確実性の進化を捉えるために、モデル自体からトークンレベルの予測エントロピーを統合する。
実験の結果,EASはモデルとデータセット間の解のエントロピーと強く相関していることがわかった。
トレーニングデータ選択において、EASは高電位サンプルを特定し、同じサンプル予算の下でパスレートフィルタリングを一貫して上回り、数学ベンチマークの学生モデル精度を向上させる。
EASは効率的かつ解釈可能であり、LLMトレーニングにおける不確実性モデリングとデータ品質評価のための実用的なツールを提供する。
関連論文リスト
- Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Proximal Symmetric Non-negative Latent Factor Analysis: A Novel Approach
to Highly-Accurate Representation of Undirected Weighted Networks [2.1797442801107056]
Undirected Weighted Network (UWN) は、ビッグデータ関連のアプリケーションで一般的に見られる。
既存のモデルは本質対称性や低データ密度のモデル化に失敗する。
近軸対称非負の潜在因子分析モデルを提案する。
論文 参考訳(メタデータ) (2023-06-06T13:03:24Z) - Efficient Training of Energy-Based Models Using Jarzynski Equality [13.636994997309307]
エネルギーベースモデル(英: Energy-based model、EBM)は、統計物理学にインスパイアされた生成モデルである。
モデルパラメータに対する勾配の計算には、モデルの分布をサンプリングする必要がある。
ここでは、ジャジンスキーの等式に基づく非平衡熱力学の結果を用いて、この計算を効率的に行う方法を示す。
論文 参考訳(メタデータ) (2023-05-30T21:07:52Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。