論文の概要: Dynamics of Learning: Generative Schedules from Latent ODEs
- arxiv url: http://arxiv.org/abs/2509.23052v1
- Date: Sat, 27 Sep 2025 02:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.010614
- Title: Dynamics of Learning: Generative Schedules from Latent ODEs
- Title(参考訳): 学習のダイナミクス:潜在するODEからの生成スケジュール
- Authors: Matt L. Sampson, Peter Melchior,
- Abstract要約: ニューラルネットワークのトレーニング性能を動的システムとしてモデル化する新しい学習率スケジューラを提案する。
本手法は計算効率が高く,一般化に依存しないものであり,ML実験追跡プラットフォーム上に容易に階層化することができる。
- 参考スコア(独自算出の注目度): 0.14323566945483496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The learning rate schedule is one of the most impactful aspects of neural network optimization, yet most schedules either follow simple parametric functions or react only to short-term training signals. None of them are supported by a comprehensive temporal view of how well neural networks actually train. We present a new learning rate scheduler that models the training performance of neural networks as a dynamical system. It leverages training runs from a hyperparameter search to learn a latent representation of the training process. Given current training metrics, it predicts the future learning rate schedule with the best long-term validation performance. Our scheduler generalizes beyond previously observed training dynamics and creates specialized schedules that deviate noticeably from common parametric functions. It achieves SOTA results for image classification with CNN and ResNet models as well as for next-token prediction with a transformer model. The trained models are located in flatter regions of the loss landscape and thus provide better generalization than those trained with other schedules. Our method is computationally efficient, optimizer-agnostic, and can easily be layered on top of ML experiment-tracking platforms. An implementation of our scheduler will be made available after acceptance.
- Abstract(参考訳): 学習率スケジュールはニューラルネットワーク最適化の最も影響のある側面の1つであるが、ほとんどのスケジュールは単純なパラメトリック関数に従うか、短期的なトレーニング信号にのみ反応する。
いずれも、ニューラルネットワークが実際にどのようにトレーニングされているかという、包括的な時間的視点では、サポートされていない。
ニューラルネットワークのトレーニング性能を動的システムとしてモデル化する新しい学習率スケジューラを提案する。
ハイパーパラメータ検索からのトレーニングの実行を活用して、トレーニングプロセスの潜在表現を学習する。
現在のトレーニング指標から、将来の学習率スケジュールを、最高の長期検証パフォーマンスで予測する。
我々のスケジューラは、以前に観測されたトレーニング力学を超越して一般化し、一般的なパラメトリック関数から顕著に逸脱する特別なスケジュールを作成する。
CNNおよびResNetモデルによる画像分類のSOTA結果と、トランスフォーマーモデルによる次点予測を実現する。
トレーニングされたモデルは、損失ランドスケープの平坦な領域に位置しており、他のスケジュールでトレーニングされたモデルよりも優れた一般化を提供する。
提案手法は計算効率が高く,最適化が不要であり,ML実験追跡プラットフォーム上に容易に階層化することができる。
承認後、スケジューラの実装を利用可能にします。
関連論文リスト
- Context-Aware Inference via Performance Forecasting in Decentralized Learning Networks [0.0]
分散学習ネットワークでは、多くの参加者からの予測が組み合わされ、ネットワーク推論が生成される。
我々は,機械学習を用いて時系列の各エポックにおけるモデルによる予測性能を予測するモデルを開発した。
論文 参考訳(メタデータ) (2025-10-07T20:30:21Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - DCLP: Neural Architecture Predictor with Curriculum Contrastive Learning [5.2319020651074215]
ニューラル予測器(DCLP)のためのカリキュラム誘導型コントラスト学習フレームワークを提案する。
本手法は,新たなカリキュラムを設計し,ラベルのないトレーニングデータ分布の安定性を高めることで,対照的なタスクを単純化する。
我々は既存の予測器と比較してDCLPの精度と効率が優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2023-02-25T08:16:21Z) - Online Evolutionary Neural Architecture Search for Multivariate
Non-Stationary Time Series Forecasting [72.89994745876086]
本研究は、オンラインニューロ進化に基づくニューラルアーキテクチャサーチ(ONE-NAS)アルゴリズムを提案する。
ONE-NASは、オンライン予測タスクのためにリカレントニューラルネットワーク(RNN)を自動設計し、動的にトレーニングする新しいニューラルネットワーク探索手法である。
その結果、ONE-NASは従来の統計時系列予測法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-20T22:25:47Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。