論文の概要: Know Your Limits: Entropy Estimation Modeling for Compression and Generalization
- arxiv url: http://arxiv.org/abs/2511.10618v1
- Date: Fri, 14 Nov 2025 02:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.958333
- Title: Know Your Limits: Entropy Estimation Modeling for Compression and Generalization
- Title(参考訳): 限界を知る:圧縮と一般化のためのエントロピー推定モデル
- Authors: Benjamin L. Badger, Matthew Neligeorge,
- Abstract要約: 本稿では,より優れた訓練効率特性を示すエンコーダ拡張因果デコーダモデルアーキテクチャを提案する。
提案手法は, 提案手法を用いて訓練した因果関係モデルにおいて, エントロピーを考慮せずに訓練したモデルよりも, 精度の高い一般化が期待できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language prediction is constrained by informational entropy intrinsic to language, such that there exists a limit to how accurate any language model can become and equivalently a lower bound to language compression. The most efficient language compression algorithms today are causal (next token prediction) large language models, but the use of these models to form accurate estimates of language entropy is currently computationally infeasible. We introduce encoder-augmented causal decoder model architectures that exhibit superior training efficiency characteristics and achieve higher compression than causal transformers even when trained on modest hardware. We demonstrate how entropy estimates can be obtained on a per-token basis, and show that the generalization of models trained to approach the entropy of their training data necessarily exceeds the generalization of models trained to minimize loss beyond this value. We show empirically that causal models trained to approach but not exceed estimated per-token entropies exhibit greater generalization than models trained without taking entropy into account.
- Abstract(参考訳): 言語予測は、言語に固有の情報エントロピーによって制約され、どんな言語モデルでもどの程度の正確さと同等に言語圧縮に縛られるかに制限がある。
現在、最も効率的な言語圧縮アルゴリズムは因果(次のトークン予測)大言語モデルであるが、言語エントロピーの正確な推定にこれらのモデルを使用することは、現在計算不可能である。
トレーニング効率の優れたエンコーダ拡張型因果デコーダモデルアーキテクチャを導入し,中等度ハードウェアでトレーニングした場合でも,因果変換器よりも高い圧縮を実現する。
実験では, トレーニングデータのエントロピーにアプローチするために訓練されたモデルの一般化が, この値を超える損失を最小限に抑えるために訓練されたモデルの一般化を上回ることを示した。
提案手法は, エントロピーを考慮に入れずにトレーニングしたモデルよりも, 推定される1つのエントロピーを超越しない因果モデルの方が, より高度な一般化を示すことを示す。
関連論文リスト
- Non-Vacuous Generalization Bounds for Large Language Models [78.42762571499061]
事前訓練された大言語モデルに対して、最初の空でない一般化境界を提供する。
より大きいモデルはより優れた一般化バウンダリを持ち、より小さなモデルよりも圧縮可能であることを示す。
論文 参考訳(メタデータ) (2023-12-28T17:58:42Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。