論文の概要: Learning Shrinks the Hard Tail: Training-Dependent Inference Scaling in a Solvable Linear Model
- arxiv url: http://arxiv.org/abs/2601.03764v1
- Date: Wed, 07 Jan 2026 10:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.17662
- Title: Learning Shrinks the Hard Tail: Training-Dependent Inference Scaling in a Solvable Linear Model
- Title(参考訳): ハードテールの縮小を学習する: 可解線形モデルにおけるトレーニング依存推論スケーリング
- Authors: Noam Levi,
- Abstract要約: ニューラルネットワークのスケーリング法則を最終層微細チューニングの解法モデルで解析する。
学習がエラー分布の「ハードテール」を小さくすることを示す。
- 参考スコア(独自算出の注目度): 2.7074235008521246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze neural scaling laws in a solvable model of last-layer fine-tuning where targets have intrinsic, instance-heterogeneous difficulty. In our Latent Instance Difficulty (LID) model, each input's target variance is governed by a latent ``precision'' drawn from a heavy-tailed distribution. While generalization loss recovers standard scaling laws, our main contribution connects this to inference. The pass@$k$ failure rate exhibits a power-law decay, $k^{-β_\text{eff}}$, but the observed exponent $β_\text{eff}$ is training-dependent. It grows with sample size $N$ before saturating at an intrinsic limit $β$ set by the difficulty distribution's tail. This coupling reveals that learning shrinks the ``hard tail'' of the error distribution: improvements in the model's generalization error steepen the pass@$k$ curve until irreducible target variance dominates. The LID model yields testable, closed-form predictions for this behavior, including a compute-allocation rule that favors training before saturation and inference attempts after. We validate these predictions in simulations and in two real-data proxies: CIFAR-10H (human-label variance) and a maths teacher-student distillation task.
- Abstract(参考訳): ニューラルネットワークのスケーリング法則を最終層微細チューニングの解法モデルで解析する。
我々のLatent Instance Difficulty(LID)モデルでは、各入力のターゲット分散は、重み付き分布から引き出された潜時 ' `precision'' によって制御される。
一般化損失は標準的なスケーリング法則を回復するが、我々の主な貢献はこれを推論に結びつけることである。
pass@$k$失敗率は、パワーロー崩壊である$k^{-β_\text{eff}}$を示すが、観測指数である$β_\text{eff}$は、トレーニング依存である。
サンプルサイズ$N$で成長し、本質的な極限で飽和する前に、困難分布の尾によって設定される$β$で成長する。
この結合は、学習がエラー分布の ``hard tail'' を縮小することを明らかにしている。
LIDモデルは、飽和前のトレーニングとその後の推論の試みを好む計算割当ルールを含む、テスト可能なクローズドフォーム予測をもたらす。
CIFAR-10H(Human-label variance)と数学教師-学生蒸留タスクの2つの実データプロキシでこれらの予測を検証した。
関連論文リスト
- Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Precise Learning Curves and Higher-Order Scaling Limits for Dot Product
Kernel Regression [41.48538038768993]
本稿では,ドット積カーネルのカーネルリッジ回帰問題に焦点をあてる。
我々は、任意の整数$r$に対して$m approx dr/r!$が常に学習曲線のピークを観測し、複数のサンプルワイズと非自明な振る舞いを複数のスケールで達成する。
論文 参考訳(メタデータ) (2022-05-30T04:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。