論文の概要: Dynamic Learning Rate Scheduling based on Loss Changes Leads to Faster Convergence
- arxiv url: http://arxiv.org/abs/2512.14527v1
- Date: Tue, 16 Dec 2025 16:03:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.775459
- Title: Dynamic Learning Rate Scheduling based on Loss Changes Leads to Faster Convergence
- Title(参考訳): 損失変化に基づく動的学習率スケジューリングはより高速な収束につながる
- Authors: Shreyas Subramanian, Bala Krishnamoorthy, Pranav Murthy,
- Abstract要約: emphGreedyLRは、トレーニング中に現在の損失に基づいて学習率を適応的に調整する新しいスケジューラである。
提案手法は, 精度, 速度, 収束の点で, 最先端のスケジューラよりも優れている。
- 参考スコア(独自算出の注目度): 2.1665689529884697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advances in optimizers for training, most research works use common scheduler choices like Cosine or exponential decay. In this paper, we study \emph{GreedyLR}, a novel scheduler that adaptively adjusts the learning rate during training based on the current loss. To validate the effectiveness of our proposed scheduler, we conduct experiments on several NLP, CV, and LLM tasks with up to $7B$ parameters, including both fine-tuning and pre-training experiments. The results show that our approach outperforms several state-of-the-art schedulers in terms of accuracy, speed, and convergence. We also provide a theoretical analysis of the GreedyLR algorithm, including a proof of convergence and derivation of the optimal scaling factor $F$ that maximizes the convergence rate, along with experiments to show robustness of the algorithm to realistic noisy landscapes. Our scheduler is easy to implement, computationally efficient, and could be considered a good default scheduler for training.
- Abstract(参考訳): トレーニングのためのオプティマイザの大幅な進歩にもかかわらず、ほとんどの研究はコサインや指数減衰のような一般的なスケジューラ選択を使用している。
本稿では,現在の損失に基づいて学習率を適応的に調整する新しいスケジューラである \emph{GreedyLR} について検討する。
提案するスケジューラの有効性を検証するため,いくつかのNLP,CV,LLMタスクに対して,最大7億ドルのパラメータで実験を行う。
その結果,提案手法は精度,速度,収束性という点で,最先端のスケジューラよりも優れていた。
また,GreedyLRアルゴリズムの理論解析を行い,収束率を最大化する最適スケーリング係数$F$の証明と,現実的な雑音環境に対するアルゴリズムの堅牢性を示す実験を行った。
私たちのスケジューラは実装が簡単で、計算効率が良く、トレーニングのデフォルトスケジューラとして優れたものと考えられます。
関連論文リスト
- The Art of Scaling Reinforcement Learning Compute for LLMs [52.71086085139566]
強化学習(RL)は、大規模言語モデルの訓練の中心となっている。
計算予算の急激な増加にもかかわらず、RL計算のスケーリングにおけるアルゴリズム改善の評価方法に関する原則的な理解は存在しない。
我々は,約40万時間以上のGPU時間を有する,最初の大規模体系的な研究を提示する。
論文 参考訳(メタデータ) (2025-10-15T17:43:03Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Optimal Growth Schedules for Batch Size and Learning Rate in SGD that Reduce SFO Complexity [0.6906005491572401]
計算勾配法におけるバッチサイズと学習速度のスケジューリングは効率を低下させ、収束を損なう。
理論的には,SFOの複雑性を低減させるバッチサイズと学習率の最適な成長スケジュールを導出した。
本結果は,ディープラーニングにおける大規模バッチ学習をスケーラブルかつ効率的に行うための理論的知見と実践的ガイドラインの両方を提供する。
論文 参考訳(メタデータ) (2025-08-07T11:52:25Z) - AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining [12.630306478872043]
オンライン最適学習率探索を行うプラグイン・アンド・プレイ適応学習率探索アルゴリズムである textbfAdaLRS を提案する。
実験により,AdaLRSは最適近傍の最適学習率を顕著な効率と有効性で調整することが示された。
論文 参考訳(メタデータ) (2025-06-16T09:14:01Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Accelerating Augmentation Invariance Pretraining [7.772780341646099]
我々は、特に視覚変換器(ViT)の事前学習において、対照的な学習手法の計算課題に取り組む。
様々なシーケンス長の入力をまたいで一般化するViTのユニークな能力を生かしたアクセラレーションフレームワークを提案する。
本手法では,ランダム化トークンドロップアウトやフレキシブルパッチスケーリングなどのシーケンス圧縮戦略を併用することにより,勾配推定のコストを低減し,収束を加速する。
論文 参考訳(メタデータ) (2024-10-27T21:53:33Z) - Optimal Linear Decay Learning Rate Schedules and Further Refinements [46.79573408189601]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。