論文の概要: The Coverage Principle: How Pre-Training Enables Post-Training
- arxiv url: http://arxiv.org/abs/2510.15020v2
- Date: Wed, 22 Oct 2025 16:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.528386
- Title: The Coverage Principle: How Pre-Training Enables Post-Training
- Title(参考訳): 包括的原則 - 事前トレーニングがポストトレーニングを可能にする方法
- Authors: Fan Chen, Audrey Huang, Noah Golowich, Sadhika Malladi, Adam Block, Jordan T. Ash, Akshay Krishnamurthy, Dylan J. Foster,
- Abstract要約: 予備学習が最終モデルの成功をどう形作るかを検討する。
下流の性能予測におけるカバレッジのパワーを説明するメカニズムを明らかにする。
- 参考スコア(独自算出の注目度): 70.25788947586297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models demonstrate remarkable abilities when pre-trained on large text corpora and fine-tuned for specific tasks, but how and why pre-training shapes the success of the final model remains poorly understood. Notably, although pre-training success is often quantified by cross-entropy loss, cross-entropy can be a poor predictor of downstream performance. Instead, we provide a theoretical perspective on this relationship through the lens of \emph{coverage}, which quantifies the probability mass the pre-trained model places on high-quality responses and which is necessary and sufficient for post-training and test-time scaling methods such as Best-of-N to succeed. Our main results develop an understanding of \emph{the coverage principle}, a phenomenon whereby next-token prediction (more generally, maximum likelihood) implicitly optimizes toward a model with good coverage. In particular, we uncover a mechanism that explains the power of coverage in predicting downstream performance: \emph{coverage generalizes faster than cross-entropy}, avoiding spurious dependence on problem-dependent parameters such as the sequence length. We also study practical algorithmic interventions with provable benefits for improving coverage, including (i) model/checkpoint selection procedures, (ii) gradient normalization schemes, and (iii) test-time decoding strategies.
- Abstract(参考訳): 言語モデルは、大きなテキストコーパスで事前学習され、特定のタスクのために微調整された場合、顕著な能力を示すが、なぜ事前学習が最終モデルの成功を形作るのかは、まだ理解されていない。
特に、事前学習の成功は、しばしばクロスエントロピー損失によって定量化されるが、クロスエントロピーは下流のパフォーマンスの予測に乏しい。
代わりに、この関係に関する理論的視点を、高品質な応答における事前学習されたモデル位置の確率質量を定量化し、Best-of-Nのようなポストトレーニングおよびテストタイムスケーリング手法が成功するのに十分である、という『emph{coverage}』のレンズを通して提供する。
本研究の主な成果は,次点の予測(一般には最大可能性)が,良好なカバレッジを持つモデルに向けて暗黙的に最適化される現象である「emph{the coverage principle}」の理解を深めることである。
特に,下流性能の予測におけるカバレッジのパワーを説明するメカニズムを明らかにする: \emph{coverage is generalizes faster than cross-entropy}, avoid a spurious dependencies on problem-dependent parameters such as the sequence length。
また,包括性向上に資するアルゴリズムの実践的介入についても検討する。
(i)モデル/チェックポイント選択手順
(二)勾配正規化スキーム、及び
(iii)テスト時の復号化戦略。
関連論文リスト
- Multiply Robust Conformal Risk Control with Coarsened Data [0.0]
コンフォーマル予測(CP)は近年,膨大な関心を集めている。
本稿では、粗いデータから得られる結果に対して、分布自由な有効予測領域を得るという一般的な問題について考察する。
半パラメトリック理論の原則的利用は、フレキシブルな機械学習手法の促進の鍵となる利点を持つ。
論文 参考訳(メタデータ) (2025-08-21T12:14:44Z) - Principled Input-Output-Conditioned Post-Hoc Uncertainty Estimation for Regression Networks [1.4671424999873808]
不確実性は安全性に敏感なアプリケーションでは重要であるが、予測性能に悪影響を及ぼすため、市販のニューラルネットワークから排除されることが多い。
本稿では,従来の入力と凍結モデルの両方に補助モデルを適用することにより,回帰タスクにおけるポストホック不確実性推定のための理論的基盤となるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-01T09:13:27Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Feature Fitted Online Conformal Prediction for Deep Time Series Forecasting Model [0.8287206589886881]
時系列予測は多くのアプリケーションにおいて重要であり、深層学習に基づく点予測モデルは高い性能を示している。
既存の信頼区間モデリングアプローチは、重要な制限に悩まされている。
本稿では,リトレーニングを伴わずに,有効なカバレッジと短い間隔長を提供する軽量な予測予測手法を提案する。
論文 参考訳(メタデータ) (2025-05-13T01:33:53Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - A Learning-Based Optimal Uncertainty Quantification Method and Its
Application to Ballistic Impact Problems [1.713291434132985]
本稿では、入力(または事前)測度が部分的に不完全であるシステムに対する最適(最大および無限)不確実性境界について述べる。
本研究では,不確実性最適化問題に対する学習基盤の枠組みを実証する。
本手法は,工学的実践における性能証明と安全性のためのマップ構築に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-28T14:30:53Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z) - Predictive Business Process Monitoring via Generative Adversarial Nets:
The Case of Next Event Prediction [0.026249027950824504]
本稿では,次の事象予測の問題に対処するための,新たな逆トレーニングフレームワークを提案する。
これは、2人のプレイヤーのゲームで1つのニューラルネットワークをもう1つのニューラルネットワークと対戦させることで機能し、それは地上の真実と区別できない予測につながる。
単純なネットワークアーキテクチャとナイーブな特徴符号化を使用しても、正確さと予測のイヤーラインの両方において、体系的にすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-03-25T08:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。