論文の概要: ScheduleFree+: Scaling Learning-Rate-Free & Schedule-Free Learning to Large Language Models
- arxiv url: http://arxiv.org/abs/2605.19095v1
- Date: Mon, 18 May 2026 20:31:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.9782
- Title: ScheduleFree+: Scaling Learning-Rate-Free & Schedule-Free Learning to Large Language Models
- Title(参考訳): ScheduleFree+:大規模言語モデルへの学習率とスケジュールフリー学習のスケーリング
- Authors: Aaron Defazio,
- Abstract要約: 本稿では、Warmup-Stable-Decay (WSD) スケジュールを大幅に上回る大規模言語モデルを訓練するための学習速度フリーかつスケジュールフリーな手法(ScheduleFree+)を提案する。
また、スケジュール自由学習は長期学習に最も有効であり、パラメータあたり1000トークンでは、SOTAスケジュールを31%上回っていることを示す。
- 参考スコア(独自算出の注目度): 10.720913594892117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Schedule-Free Learning has shown promise as a practical anytime training method for machine learning, showing success across dozens of standard benchmark problems. However, strong performance for LLM training has only been demonstrated at small scales. We identify a number of fixes necessary to scale up Schedule-Free Learning to larger batch sizes and model sizes, and present a learning-rate-free and schedule-free method (ScheduleFree+) for training large language models which greatly outperforms Warmup-Stable-Decay (WSD) schedules. We also demonstrate that Schedule-Free Learning is most effective for long duration training, and at 1000 tokens per parameter, it outperforms SOTA schedules by 31%. Schedule-Free Learning provides a theoretical foundation for the use of model averaging and checkpoint merging during pretraining.
- Abstract(参考訳): Schedule-Free Learningは、機械学習の実践的な任意の時間トレーニング方法として約束を示し、数十の標準ベンチマーク問題で成功を示している。
しかし、LLMトレーニングの強い性能は、小規模でしか実証されていない。
我々は、スケジュール自由学習をより大きなバッチサイズとモデルサイズにスケールアップするために必要な多くの修正を特定し、Warmup-Stable-Decay(WSD)スケジュールを大幅に上回る大規模言語モデルをトレーニングするための学習時間自由かつスケジュール自由な方法(ScheduleFree+)を提案する。
また、スケジュール自由学習は長期学習に最も有効であり、パラメータあたり1000トークンでは、SOTAスケジュールを31%上回っていることを示す。
スケジュール自由学習(Schedule-Free Learning)は、事前トレーニング中にモデル平均化とチェックポイントマージを使用する理論的基盤を提供する。
関連論文リスト
- NanoNet: Parameter-Efficient Learning with Label-Scarce Supervision for Lightweight Text Mining Model [51.055122269052696]
NanoNetは、限られた監督下でパラメータ効率の学習を実装する軽量テキストマイニングのための新しいフレームワークである。
プロセス全体はパラメータ効率の学習を活用し、トレーニングコストを削減し、監督要件を最小限に抑え、最終的には下流推論のための軽量なモデルを生み出す。
論文 参考訳(メタデータ) (2026-02-05T08:31:57Z) - Anytime Pretraining: Horizon-Free Learning-Rate Schedules with Weight Averaging [70.05077723711618]
本研究では, 1-32xChinchillaスケールで学習した言語モデルが時間とともに減衰し, 問題の発生源とキャパシティ条件によって減衰速度が決定されることを示した。
以上の結果から,重み付き平均化と地平線なしのステップサイズを組み合わせることで,大規模言語モデルの事前学習におけるコサイン学習率のスケジュールに代わる実用的で効果的な選択肢が得られることが示唆された。
論文 参考訳(メタデータ) (2026-02-03T16:24:05Z) - A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules [67.87680482844884]
本稿では,大規模言語モデルの事前学習損失が,学習率の異なるスケジュール下でどのように進展するかを示す経験則を提案する。
提案法は,学習率の総和に基づく電力法則と,学習率減衰による損失低減効果を考慮した電力法とを併用した多大電力法である。
論文 参考訳(メタデータ) (2025-03-17T04:36:45Z) - Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。
本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。
その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文 参考訳(メタデータ) (2024-05-28T17:33:54Z) - Fast Exact Unlearning for In-Context Learning Data for LLMs [30.06631665962119]
大規模言語モデルでは「微調整データ」を効率的に解き放つことができることを示す。
正確な文脈内学習は量子化k-meansで行うことができ、効果的に一定時間非学習操作ができることを示す。
論文 参考訳(メタデータ) (2024-02-01T16:43:04Z) - How to Scale Your EMA [20.94711634514331]
モデルEMAが存在する場合、最適化のためのスケーリングルールを提供する。
本稿では,モデルEMAが対象モデルの最適化に寄与するルールの有効性を示す。
自己指導型学習では、パフォーマンスを犠牲にすることなく、バッチサイズ24,576までのBYOLのトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-25T20:33:48Z) - Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule
towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。
LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。
LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文 参考訳(メタデータ) (2022-08-25T05:05:18Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。