論文の概要: Dynamics of Learning: Generative Schedules from Latent ODEs
- arxiv url: http://arxiv.org/abs/2509.23052v1
- Date: Sat, 27 Sep 2025 02:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.010614
- Title: Dynamics of Learning: Generative Schedules from Latent ODEs
- Title(参考訳): 学習のダイナミクス:潜在するODEからの生成スケジュール
- Authors: Matt L. Sampson, Peter Melchior,
- Abstract要約: ニューラルネットワークのトレーニング性能を動的システムとしてモデル化する新しい学習率スケジューラを提案する。
本手法は計算効率が高く,一般化に依存しないものであり,ML実験追跡プラットフォーム上に容易に階層化することができる。
- 参考スコア(独自算出の注目度): 0.14323566945483496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The learning rate schedule is one of the most impactful aspects of neural network optimization, yet most schedules either follow simple parametric functions or react only to short-term training signals. None of them are supported by a comprehensive temporal view of how well neural networks actually train. We present a new learning rate scheduler that models the training performance of neural networks as a dynamical system. It leverages training runs from a hyperparameter search to learn a latent representation of the training process. Given current training metrics, it predicts the future learning rate schedule with the best long-term validation performance. Our scheduler generalizes beyond previously observed training dynamics and creates specialized schedules that deviate noticeably from common parametric functions. It achieves SOTA results for image classification with CNN and ResNet models as well as for next-token prediction with a transformer model. The trained models are located in flatter regions of the loss landscape and thus provide better generalization than those trained with other schedules. Our method is computationally efficient, optimizer-agnostic, and can easily be layered on top of ML experiment-tracking platforms. An implementation of our scheduler will be made available after acceptance.
- Abstract(参考訳): 学習率スケジュールはニューラルネットワーク最適化の最も影響のある側面の1つであるが、ほとんどのスケジュールは単純なパラメトリック関数に従うか、短期的なトレーニング信号にのみ反応する。
いずれも、ニューラルネットワークが実際にどのようにトレーニングされているかという、包括的な時間的視点では、サポートされていない。
ニューラルネットワークのトレーニング性能を動的システムとしてモデル化する新しい学習率スケジューラを提案する。
ハイパーパラメータ検索からのトレーニングの実行を活用して、トレーニングプロセスの潜在表現を学習する。
現在のトレーニング指標から、将来の学習率スケジュールを、最高の長期検証パフォーマンスで予測する。
我々のスケジューラは、以前に観測されたトレーニング力学を超越して一般化し、一般的なパラメトリック関数から顕著に逸脱する特別なスケジュールを作成する。
CNNおよびResNetモデルによる画像分類のSOTA結果と、トランスフォーマーモデルによる次点予測を実現する。
トレーニングされたモデルは、損失ランドスケープの平坦な領域に位置しており、他のスケジュールでトレーニングされたモデルよりも優れた一般化を提供する。
提案手法は計算効率が高く,最適化が不要であり,ML実験追跡プラットフォーム上に容易に階層化することができる。
承認後、スケジューラの実装を利用可能にします。
関連論文リスト
- A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。