論文の概要: Sharpness-Aware Pretraining Mitigates Catastrophic Forgetting
- arxiv url: http://arxiv.org/abs/2605.02105v1
- Date: Mon, 04 May 2026 00:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.082997
- Title: Sharpness-Aware Pretraining Mitigates Catastrophic Forgetting
- Title(参考訳): 破砕前処理による破砕前処理
- Authors: Ishaan Watts, Catherine Li, Sachin Goyal, Jacob Mitchell Springer, Aditi Raghunathan,
- Abstract要約: フラットなミニマに向けてバイアス最適化を行う3つの事前学習最適化手法について検討する。
モデルのサイズは20Mから1億5000Mの範囲で、これらの介入はポストトレーニング後のダウンストリーム性能を継続的に改善する。
既存のOLMo-2-1Bチェックポイントに適用されたSAM中間トレーニングフェーズは、メタマス後トレーニング後の31%、4ビット量子化後の40%の遅延を減少させる。
- 参考スコア(独自算出の注目度): 34.224490336271806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretraining optimizers are tuned to produce the strongest possible base model, on the assumption that a stronger starting point yields a stronger model after subsequent changes like post-training and quantization. This overlooks the geometry of the base model which controls how much of the base model's capabilities survive subsequent parameter updates. We study three pretraining optimization approaches that bias optimization toward flatter minima: Sharpness-Aware Minimization (SAM), large learning rates, and shortened learning rate annealing periods. Across model sizes ranging from 20M to 150M parameters, we find that these interventions consistently improve downstream performance after post-training on five common datasets with up to 80% less forgetting. These principles hold at scale: a short SAM mid-training phase applied to an existing OLMo-2-1B checkpoint reduces forgetting by 31% after MetaMath post-training and by 40% after 4-bit quantization.
- Abstract(参考訳): 事前学習オプティマイザは、後のトレーニングや量子化といったその後の変化の後、より強い開始点がより強いモデルをもたらすという仮定に基づいて、可能な限り強力なベースモデルを生成するように調整される。
これは、ベースモデルの機能がその後のパラメータ更新でどれだけ生き残るかを制御するベースモデルの幾何学を見落としている。
よりフラットなミニマに向けてバイアス最適化を行う3つの事前学習最適化手法について検討する: シャープネス・アウェア最小化(SAM)、大規模学習率、学習速度アニール期間の短縮。
20Mから1億5000万のパラメータのモデルサイズにわたって、これらの介入は、最大80%の少ない5つの共通データセットのトレーニング後、ダウンストリームのパフォーマンスを継続的に改善する。
既存のOLMo-2-1Bチェックポイントに適用されたSAM中間トレーニングフェーズは、メタマス後トレーニング後の31%、4ビット量子化後の40%の遅延を減少させる。
関連論文リスト
- CAST: Continuous and Differentiable Semi-Structured Sparsity-Aware Training for Large Language Models [27.682531424487564]
スパシティアウェアトレーニングは、大きな言語モデルをハードウェアフレンドリーなスパースパターンに変換するための効果的なアプローチである。
スパースモデルのための連続的かつ微分可能なスパース対応トレーニングフレームワークであるContinuous Adaptive Sparse Trainer (CAST)を提案する。
以上の結果から,従来の最先端手法に比べて,トレーニングリソースの最小化による難易度とゼロショット精度の両面で有意な改善が見られた。
論文 参考訳(メタデータ) (2025-09-30T09:28:47Z) - Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。