論文の概要: Excess Description Length of Learning Generalizable Predictors
- arxiv url: http://arxiv.org/abs/2601.04728v1
- Date: Thu, 08 Jan 2026 08:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.11798
- Title: Excess Description Length of Learning Generalizable Predictors
- Title(参考訳): 一般化予測器の学習における記述長の過剰化
- Authors: Elizabeth Donoway, Hailey Joren, Fabien Roger, Jan Leike,
- Abstract要約: 我々は,列車のデータセットからどれだけの予測構造を微調整するかを定量化するための形式的情報理論フレームワークを開発した。
我々の中心となる量であるExcess Description Length (EDL) は、逐次符号化によって定義される。
我々は,EDLが期待値が負でないことを証明し,無限データ限界における余剰記述長に収束し,期待される一般化ゲインにバウンダリを与える。
- 参考スコア(独自算出の注目度): 7.527535569795127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding whether fine-tuning elicits latent capabilities or teaches new ones is a fundamental question for language model evaluation and safety. We develop a formal information-theoretic framework for quantifying how much predictive structure fine-tuning extracts from the train dataset and writes into a model's parameters. Our central quantity, Excess Description Length (EDL), is defined via prequential coding and measures the gap between the bits required to encode training labels sequentially using an evolving model (trained online) and the residual encoding cost under the final trained model. We establish that EDL is non-negative in expectation, converges to surplus description length in the infinite-data limit, and provides bounds on expected generalization gain. Through a series of toy models, we clarify common confusions about information in learning: why random labels yield EDL near zero, how a single example can eliminate many bits of uncertainty about the underlying rule(s) that describe the data distribution, why structure learned on rare inputs contributes proportionally little to expected generalization, and how format learning creates early transients distinct from capability acquisition. This framework provides rigorous foundations for the empirical observation that capability elicitation and teaching exhibit qualitatively distinct scaling signatures.
- Abstract(参考訳): 微調整が潜在能力を与えるのか、新しいものを教えるのかを理解することは、言語モデルの評価と安全性の基本的な問題である。
我々は,列車のデータセットからどれだけの予測構造を微調整するかを定量化し,モデルパラメータに書き込むための形式的情報理論フレームワークを開発した。
我々の中心となる量であるExcess Description Length(EDL)は、事前符号化によって定義され、学習ラベルを逐次的に符号化するために必要なビットと、最終的な訓練モデルの下での残留符号化コストとのギャップを測定する。
我々は,EDLが期待値が負でないことを証明し,無限データ限界における余剰記述長に収束し,期待される一般化ゲインに限界を与える。
一連のおもちゃモデルを通して、学習における情報に関する一般的な混乱を明らかにし、なぜランダムラベルがゼロに近いEDLを生成するのか、データの分布を記述する基礎となるルール(s)について、単一の例が多くの不確実性を排除できるのか、なぜ希少な入力で学習された構造が期待される一般化に比例的にほとんど寄与しないのか、フォーマット学習が能力獲得とは異なる早期のトランジェントを生成するのか、などを明らかにした。
この枠組みは、能力付与と教育が質的に異なるスケーリングシグネチャを示すという経験的観察のための厳密な基礎を提供する。
関連論文リスト
- Generalization Capability for Imitation Learning [1.30536490219656]
模倣学習は、専門家によるデモンストレーションから学ぶことで、多芸なスキルを持つロボットを装備するという約束を果たす。
しかしながら、有限データセットで訓練されたポリシーは、トレーニング分布を超えた一般化に苦慮することが多い。
本稿では、情報理論とデータ分散特性の両方を基礎とした模倣学習の一般化能力に関する統一的な視点を示す。
論文 参考訳(メタデータ) (2025-04-25T17:59:59Z) - Accelerating Large Language Model Inference with Self-Supervised Early Exits [0.0]
本稿では,大規模・事前学習型言語モデル(LLM)における推論を高速化する新しい手法を提案する。
本稿では,既存の変圧器層上に早期出口「頭部」を統合し,信頼度基準に基づく条件付き項化を容易にすることを提案する。
論文 参考訳(メタデータ) (2024-07-30T07:58:28Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Large-scale Pre-trained Models are Surprisingly Strong in Incremental Novel Class Discovery [76.63807209414789]
我々は,クラスiNCDにおける現状問題に挑戦し,クラス発見を継続的に,真に教師なしで行う学習パラダイムを提案する。
凍結したPTMバックボーンと学習可能な線形分類器から構成される単純なベースラインを提案する。
論文 参考訳(メタデータ) (2023-03-28T13:47:16Z) - Harnessing the Power of Explanations for Incremental Training: A
LIME-Based Approach [6.244905619201076]
この研究では、モデル説明がフィードフォワードトレーニングにフィードバックされ、モデルをより一般化するのに役立つ。
このフレームワークは、シーケンシャルなテストセットのパフォーマンスを維持するために、Elastic Weight Consolidation (EWC)によるカスタム重み付き損失を取り入れている。
提案したカスタムトレーニング手順は、インクリメンタルラーニングセットアップのすべてのフェーズにおいて、0.5%から1.5%までの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2022-11-02T18:16:17Z) - A Framework to Learn with Interpretation [2.3741312212138896]
本稿では,予測モデルとその関連解釈モデルを共同で学習する新しい枠組みを提案する。
我々は,選択した隠れ層の出力を入力として取り込む,高レベル属性関数の小型辞書を求める。
学習した機能を視覚化する詳細なパイプラインも開発されている。
論文 参考訳(メタデータ) (2020-10-19T09:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。