論文の概要: Distilled Pretraining: A modern lens of Data, In-Context Learning and Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2509.01649v1
- Date: Mon, 01 Sep 2025 17:49:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.804859
- Title: Distilled Pretraining: A modern lens of Data, In-Context Learning and Test-Time Scaling
- Title(参考訳): Distilled Pretraining: データ、インコンテキスト学習、テスト時間スケーリングの現代的なレンズ
- Authors: Sachin Goyal, David Lopez-Paz, Kartik Ahuja,
- Abstract要約: 蒸留によるプレトレーニングでは, 試験時間スケーリングが著しく向上したモデルが得られた。
蒸留はコンテキスト内での学習能力を損なう。
- 参考スコア(独自算出の注目度): 29.24906663862562
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the past year, distillation has seen a renewed prominence in large language model (LLM) pretraining, exemplified by the Llama-3.2 and Gemma model families. While distillation has historically been shown to improve statistical modeling, its effects on new paradigms that are key to modern LLMs, such as test-time scaling and in-context learning, remain underexplored. In this work, we make three main contributions. First, we show that pretraining with distillation yields models that exhibit remarkably better test-time scaling. Second, we observe that this benefit comes with a trade-off: distillation impairs in-context learning capabilities, particularly the one modeled via induction heads. Third, to demystify these findings, we study distilled pretraining in a sandbox of a bigram model, which helps us isolate the common principal factor behind our observations. Finally, using these insights, we shed light on various design choices for pretraining that should help practitioners going forward.
- Abstract(参考訳): 過去1年間で、Llama-3.2 と Gemma モデルファミリで実証された大規模言語モデル (LLM) の事前訓練で、蒸留が再び顕著になった。
蒸留は歴史的に統計モデリングを改善することが示されてきたが、試験時間スケーリングや文脈内学習といった現代のLLMの鍵となる新しいパラダイムに対する効果は、いまだ未解明のままである。
この作業では、主に3つのコントリビューションを行います。
まず, 蒸留によるプレトレーニングにより, 試験時間スケーリングが著しく向上したモデルが得られることを示す。
第二に、この利点にはトレードオフがあり、蒸留は文脈内学習能力を損なう。
第三に、これらの知見をデミストする目的で、ビッグラムモデルの砂箱で蒸留予備訓練を行い、観測の背後にある主要な要因を抽出するのに役立つ。
最後に、これらの洞察を利用することで、実践者が前進するのに役立つ事前トレーニングのためのさまざまな設計選択を明らかにしました。
関連論文リスト
- Towards Training One-Step Diffusion Models Without Distillation [72.80423908458772]
我々は,教師のスコア管理を完全に禁止する,新しい研修方法のファミリーを紹介する。
教師の重みによる学生モデルの初期化は依然として重要な課題である。
論文 参考訳(メタデータ) (2025-02-11T23:02:14Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Self-Supervised Monocular Depth Estimation with Self-Reference
Distillation and Disparity Offset Refinement [15.012694052674899]
自己教師付き単分子深度推定を改善するための2つの新しいアイデアを提案する。
我々は,教師が訓練の時期に合わせて更新したパラメータ最適化モデルを用いて,さらなる指導を行う。
我々は,高次特徴量と低次特徴量とのコンテキスト整合性を利用して,マルチスケールの相違オフセットを得る。
論文 参考訳(メタデータ) (2023-02-20T06:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。