論文の概要: On the Entropy Calibration of Language Models
- arxiv url: http://arxiv.org/abs/2511.11966v1
- Date: Sat, 15 Nov 2025 00:33:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.422896
- Title: On the Entropy Calibration of Language Models
- Title(参考訳): 言語モデルのエントロピー校正について
- Authors: Steven Cao, Gregory Valiant, Percy Liang,
- Abstract要約: 本研究では,言語モデルのエントロピーが人間のテキスト上でのログ損失と一致しているかを問うエントロピーキャリブレーションの問題について検討する。
観測されたスケーリングの挙動は、単純化された設定によって予測されるものと類似していることがわかった。
将来的なテキストのエントロピーを予測するために,モデルに適合するブラックボックスへのアクセスを前提にすれば,それが可能であることが証明できる。
- 参考スコア(独自算出の注目度): 52.47557449370603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of entropy calibration, which asks whether a language model's entropy over generations matches its log loss on human text. Past work found that models are miscalibrated, with entropy per step increasing (and text quality decreasing) as generations grow longer. This error accumulation is a fundamental problem in autoregressive models, and the standard solution is to truncate the distribution, which improves text quality at the cost of diversity. In this paper, we ask: is miscalibration likely to improve with scale, and is it theoretically possible to calibrate without tradeoffs? To build intuition, we first study a simplified theoretical setting to characterize the scaling behavior of miscalibration with respect to dataset size. We find that the scaling behavior depends on the power law exponent of the data distribution -- in particular, for a power law exponent close to 1, the scaling exponent is close to 0, meaning that miscalibration improves very slowly with scale. Next, we measure miscalibration empirically in language models ranging from 0.5B to 70B parameters. We find that the observed scaling behavior is similar to what is predicted by the simplified setting: our fitted scaling exponents for text are close to 0, meaning that larger models accumulate error at a similar rate as smaller ones. This scaling (or, lack thereof) provides one explanation for why we sample from larger models with similar amounts of truncation as smaller models, even though the larger models are of higher quality. However, truncation is not a satisfying solution because it comes at the cost of increased log loss. In theory, is it even possible to reduce entropy while preserving log loss? We prove that it is possible, if we assume access to a black box which can fit models to predict the future entropy of text.
- Abstract(参考訳): 本研究では,言語モデルのエントロピーが人間のテキスト上でのログ損失と一致しているかを問うエントロピーキャリブレーションの問題について検討する。
過去の研究では、世代が長くなるにつれて1ステップあたりのエントロピーが増加(およびテキスト品質の低下)し、モデルが誤校正されていることが判明した。
このエラー蓄積は自己回帰モデルにおける根本的な問題であり、標準的な解決策は分散を切断することであり、多様性を犠牲にしてテキスト品質を改善することである。
この論文では、誤校正はスケールで改善する可能性があり、理論的にはトレードオフなしに校正可能であるか、と問う。
直観を構築するために、まず、データセットサイズに関する誤校正のスケーリング挙動を特徴付けるため、簡易な理論的設定について検討する。
スケーリングの振る舞いは、データ分散の電力法指数に依存することが分かりました -- 特に1に近い電力法指数では、スケーリング指数は0に近くなります。
次に、0.5Bから70Bのパラメータを含む言語モデルにおいて、誤校正を経験的に測定する。
我々のテキストのスケーリング指数は0に近いので、より大きなモデルは小さいものと同じ速度でエラーを蓄積する。
このスケーリング(あるいは、その欠如)は、より大きなモデルがより高い品質であるにもかかわらず、より小さなモデルと同様の量のトランケーションを持つ大きなモデルからサンプルを採取する理由の1つを提供する。
しかし、ログ損失の増加によるコストが伴うため、トランケーションは満足のいくソリューションではない。
理論的には、ログの損失を保ちながらエントロピーを減らすことは可能か?
将来的なテキストのエントロピーを予測するために,モデルに適合するブラックボックスへのアクセスを前提にすれば,それが可能であることが証明できる。
関連論文リスト
- What Scales in Cross-Entropy Scaling Law? [28.394154336032756]
本稿では, クロスエントロピーを, 誤りエントロピー, 自己アライメント, 信頼の3つの部分に分解した。
誤差エントロピーだけがロバストなパワーロースケーリングに従っているのに対し、残りの2つの項はほとんど不変である。
本研究は, モデル挙動のより正確な記述として, 誤差エントロピースケーリング法則を確立した。
論文 参考訳(メタデータ) (2025-10-05T07:06:02Z) - Compute-Optimal LLMs Provably Generalize Better With Scale [102.29926217670926]
我々は,大規模言語モデル(LLM)の事前学習目標に基づく一般化境界を開発する。
損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度を導入する。
我々は一般化ギャップのスケーリング法則を作成し、その境界はスケールによって予測的に強くなる。
論文 参考訳(メタデータ) (2025-04-21T16:26:56Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Towards Neural Scaling Laws on Graphs [54.435688297561015]
深層グラフモデルの性能はモデルやデータセットのサイズによってどのように変化するかを検討する。
モデルスケーリングでは,パラメータ数に関わらず,モデルのスケーリング行動に影響を与える上でも,モデルの深さが重要な役割を果たす。
我々は,不規則なグラフサイズに対応するために,ノード数やエッジ数を基準としてデータスケーリングの法則を改革する。
論文 参考訳(メタデータ) (2024-02-03T06:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。