論文の概要: Randomness Helps Rigor: A Probabilistic Learning Rate Scheduler Bridging Theory and Deep Learning Practice
- arxiv url: http://arxiv.org/abs/2407.07613v2
- Date: Mon, 19 May 2025 19:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.157394
- Title: Randomness Helps Rigor: A Probabilistic Learning Rate Scheduler Bridging Theory and Deep Learning Practice
- Title(参考訳): ランダムネスはリゴールを助ける:確率論的学習率スケジューリング理論とディープラーニングの実践
- Authors: Dahlia Devapriya, Thulasi Tholeti, Janani Suresh, Sheetal Kalyani,
- Abstract要約: 確率論的学習率スケジューラ(PLRS)を提案する。
PLRSは単調に減少する条件に適合せず、証明可能な収束を保証する。
PLRSは,既存の最先端学習率スケジューラと精度の両面で同等以上の性能を示した。
- 参考スコア(独自算出の注目度): 7.494722456816369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rate schedulers have shown great success in speeding up the convergence of learning algorithms in practice. However, their convergence to a minimum has not been proven theoretically. This difficulty mainly arises from the fact that, while traditional convergence analysis prescribes to monotonically decreasing (or constant) learning rates, schedulers opt for rates that often increase and decrease through the training epochs. In this work, we aim to bridge the gap by proposing a probabilistic learning rate scheduler (PLRS) that does not conform to the monotonically decreasing condition, with provable convergence guarantees. To cement the relevance and utility of our work in modern day applications, we show experimental results on deep neural network architectures such as ResNet, WRN, VGG, and DenseNet on CIFAR-10, CIFAR-100, and Tiny ImageNet datasets. We show that PLRS performs as well as or better than existing state-of-the-art learning rate schedulers in terms of convergence as well as accuracy. For example, while training ResNet-110 on the CIFAR-100 dataset, we outperform the state-of-the-art knee scheduler by $1.56\%$ in terms of classification accuracy. Furthermore, on the Tiny ImageNet dataset using ResNet-50 architecture, we show a significantly more stable convergence than the cosine scheduler and a better classification accuracy than the existing schedulers.
- Abstract(参考訳): 学習率スケジューラは、実際に学習アルゴリズムの収束を加速することに成功した。
しかしながら、それらの最小限への収束は理論的には証明されていない。
この難しさは主に、伝統的な収束分析が単調に学習率を減少させる(あるいは一定の)のに対して、スケジューラはトレーニングのエポックを通じてしばしば増加し減少する速度を選択するという事実から生じる。
本研究では,単調に減少する条件に適合しない確率論的学習率スケジューラ(PLRS)を提案することにより,このギャップを埋めることを目的としている。
CIFAR-10、CIFAR-100、Tiny ImageNetデータセット上で、ResNet、WRN、VGG、DenseNetなどのディープニューラルネットワークアーキテクチャに関する実験結果を示す。
PLRSは,既存の最先端学習率スケジューラと精度の両面で同等以上の性能を示した。
例えば、CIFAR-100データセットでResNet-110をトレーニングしている間、分類精度の面で最先端の膝スケジューラを1.56\%で上回ります。
さらに、ResNet-50アーキテクチャを用いたTiny ImageNetデータセットにおいて、コサインスケジューラよりもはるかに安定した収束を示し、既存のスケジューラよりも優れた分類精度を示す。
関連論文リスト
- MAB-Based Channel Scheduling for Asynchronous Federated Learning in Non-Stationary Environments [12.404264058659429]
フェデレートラーニングは、生のデータ交換なしでクライアント間での分散モデルトレーニングを可能にする。
無線実装では、頻繁なパラメータ更新は高い通信オーバーヘッドを引き起こす。
通信効率と公平性を向上しつつ,クライアントの安定性を低下させるための非同期フェデレーション学習スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-03T09:05:04Z) - Provable Contrastive Continual Learning [7.6989463205452555]
我々は,従来のタスクのトレーニング損失によって,モデルの性能がいかに境界づけられているかを明らかにする理論的な性能保証を確立する。
これらの保証の理論的解析から着想を得て,CILAと呼ばれる新しいコントラスト型連続学習アルゴリズムを提案する。
提案手法は,標準ベンチマークの精度を向上し,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-29T04:48:11Z) - Relaxed Contrastive Learning for Federated Learning [48.96253206661268]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Uncertainty quantification for learned ISTA [5.706217259840463]
これらのモデルに基づく学習手法では,アルゴリズムの解法が顕著である。
確実性見積が欠如しており、不確実性定量化の理論はまだ解明されていない。
本研究は,LISTA推定器の信頼区間を得るための厳密な手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T18:39:07Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Unbiased and Efficient Self-Supervised Incremental Contrastive Learning [31.763904668737304]
本稿では,新たなIncremental InfoNCE(NCE-II)損失関数からなる自己教師型Incremental Contrastive Learning(ICL)フレームワークを提案する。
ICLは最大16.7倍のトレーニングスピードアップと16.8倍の高速収束を実現している。
論文 参考訳(メタデータ) (2023-01-28T06:11:31Z) - MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。
本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。
この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文 参考訳(メタデータ) (2022-09-26T12:04:49Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Contrastive learning of strong-mixing continuous-time stochastic
processes [53.82893653745542]
コントラスト学習(Contrastive Learning)は、ラベルのないデータから構築された分類タスクを解決するためにモデルを訓練する自己指導型の手法のファミリーである。
拡散の場合,小~中距離間隔の遷移カーネルを適切に構築したコントラスト学習タスクを用いて推定できることが示される。
論文 参考訳(メタデータ) (2021-03-03T23:06:47Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。