論文の概要: When to restart? Exploring escalating restarts on convergence
- arxiv url: http://arxiv.org/abs/2603.04117v1
- Date: Wed, 04 Mar 2026 14:35:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.346416
- Title: When to restart? Exploring escalating restarts on convergence
- Title(参考訳): いつ再起動する? 収束におけるエスカレーション再起動の探索
- Authors: Ayush K. Varshney, Šarūnas Girdzijauskas, Konstantinos Vandikas, Aneta Vulgarakis Feljan,
- Abstract要約: 我々はDescent with Escalating Restarts (SGD-ER) と呼ばれるシンプルだが効果的な戦略を提案する。
本手法は,学習の進行状況をモニタし,停止検出時に再起動をトリガし,学習速度を線形にエスカレートし,急激な局所最小値から逃れる。
標準的なスケジューラと比較して、SGD-ERはテスト精度を0.5-4.5%改善し、コンバージェンス対応のエスカレート再起動の利点を局所最適化のために示している。
- 参考スコア(独自算出の注目度): 0.06524460254566904
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning rate scheduling plays a critical role in the optimization of deep neural networks, directly influencing convergence speed, stability, and generalization. While existing schedulers such as cosine annealing, cyclical learning rates, and warm restarts have shown promise, they often rely on fixed or periodic triggers that are agnostic to the training dynamics, such as stagnation or convergence behavior. In this work, we propose a simple yet effective strategy, which we call Stochastic Gradient Descent with Escalating Restarts (SGD-ER). It adaptively increases the learning rate upon convergence. Our method monitors training progress and triggers restarts when stagnation is detected, linearly escalating the learning rate to escape sharp local minima and explore flatter regions of the loss landscape. We evaluate SGD-ER across CIFAR-10, CIFAR-100, and TinyImageNet on a range of architectures including ResNet-18/34/50, VGG-16, and DenseNet-101. Compared to standard schedulers, SGD-ER improves test accuracy by 0.5-4.5%, demonstrating the benefit of convergence-aware escalating restarts for better local optima.
- Abstract(参考訳): 学習速度スケジューリングは、収束速度、安定性、一般化に直接影響を与えるディープニューラルネットワークの最適化において重要な役割を果たす。
コサインアニール、循環学習率、温かい再起動のような既存のスケジューラは、しばしば、停滞や収束行動のようなトレーニングのダイナミクスに依存しない、固定的または周期的なトリガーに依存している。
本研究では,Stochastic Gradient Descent with Escalating Restarts (SGD-ER) と呼ぶ,シンプルながら効果的な戦略を提案する。
収束に伴う学習率を適応的に向上させる。
提案手法は,学習速度を線形に高め,急激な局所最小化を回避し,損失景観の平坦な領域を探索する。
CIFAR-10, CIFAR-100, TinyImageNetのSGD-ERをResNet-18/34/50, VGG-16, DenseNet-101などのアーキテクチャで評価した。
標準的なスケジューラと比較して、SGD-ERはテスト精度を0.5-4.5%改善し、コンバージェンス対応のエスカレート再起動の利点を局所最適化のために示している。
関連論文リスト
- Synchrony-Gated Plasticity with Dopamine Modulation for Spiking Neural Networks [6.085945372100414]
Dopamine-Modulated Spike-Synchrony-Dependent Plasticity (DA-SSDP) は、損失に敏感な同期型規則である。
DA-SSDPは、バッチレベルでスパイクパターンを同期メトリックに凝縮する。
論文 参考訳(メタデータ) (2025-12-08T06:10:44Z) - Plug-and-Play Homeostatic Spark: Zero-Cost Acceleration for SNN Training Across Paradigms [40.57310813106791]
スパイキングニューラルネットワークは、イベント駆動計算、スパースアクティベーション、ハードウェア効率を提供するが、トレーニングはしばしばゆっくりと収束し、安定性に欠ける。
AHSAR(Adaptive Homeostatic Spiking Activity Regulation)は,超簡易なプラグインおよびトレーニングパラダイムである。
AHSARは最適化を安定化し、モデルアーキテクチャや損失、勾配を変更することなく収束を加速する。
論文 参考訳(メタデータ) (2025-12-04T17:26:46Z) - Training in reverse: How iteration order influences convergence and stability in deep learning [7.702226188904773]
ニューラルネットワークのトレーニングは計算に高価であり、収束を低下させる不安定さに悩まされることが多い。
本研究は,定時学習率(スケジュールなし)と小バッチサイズ体制における訓練安定性に関する理論的問題について考察する。
勾配更新の順序は勾配に基づく反復の安定性と収束に影響を及ぼすことを示す。
SGDのようなバッチ勾配更新を処理するが、逆順に処理する。
論文 参考訳(メタデータ) (2025-02-03T17:40:03Z) - Randomness Helps Rigor: A Probabilistic Learning Rate Scheduler Bridging Theory and Deep Learning Practice [7.494722456816369]
確率論的学習率スケジューラ(PLRS)を提案する。
PLRSは単調に減少する条件に適合せず、証明可能な収束を保証する。
PLRSは,既存の最先端学習率スケジューラと精度の両面で同等以上の性能を示した。
論文 参考訳(メタデータ) (2024-07-10T12:52:24Z) - Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - RIFLE: Backpropagation in Depth for Deep Transfer Learning through
Re-Initializing the Fully-connected LayEr [60.07531696857743]
事前訓練されたモデルを用いたディープ畳み込みニューラルネットワーク(CNN)の微調整は、より大きなデータセットから学習した知識をターゲットタスクに転送するのに役立つ。
転送学習環境におけるバックプロパゲーションを深める戦略であるRIFLEを提案する。
RIFLEは、深いCNN層の重み付けに意味のあるアップデートをもたらし、低レベルの機能学習を改善する。
論文 参考訳(メタデータ) (2020-07-07T11:27:43Z) - Convolutional Neural Network Training with Distributed K-FAC [14.2773046188145]
Kronecker-factored Approximate Curvature (K-FAC)はFisher Information Matrixの近似として最近提案されている。
本稿では、大規模畳み込みニューラルネットワーク(CNN)トレーニングにおけるスケーラブルなK-FAC設計とその適用性について検討する。
論文 参考訳(メタデータ) (2020-07-01T22:00:53Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Breaking (Global) Barriers in Parallel Stochastic Optimization with Wait-Avoiding Group Averaging [48.99717153937717]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。
ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文 参考訳(メタデータ) (2020-04-30T22:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。