論文の概要: Training in reverse: How iteration order influences convergence and stability in deep learning
- arxiv url: http://arxiv.org/abs/2502.01557v1
- Date: Mon, 03 Feb 2025 17:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:01:59.879195
- Title: Training in reverse: How iteration order influences convergence and stability in deep learning
- Title(参考訳): 逆トレーニング:反復順序がディープラーニングの収束と安定性にどのように影響するか
- Authors: Benoit Dherin, Benny Avelin, Anders Karlsson, Hanna Mazzawi, Javier Gonzalvo, Michael Munn,
- Abstract要約: ニューラルネットワークのトレーニングは計算に高価であり、収束を低下させる不安定さに悩まされることが多い。
本研究は,定時学習率(スケジュールなし)と小バッチサイズ体制における訓練安定性に関する理論的問題について考察する。
勾配更新の順序は勾配に基づく反復の安定性と収束に影響を及ぼすことを示す。
SGDのようなバッチ勾配更新を処理するが、逆順に処理する。
- 参考スコア(独自算出の注目度): 7.702226188904773
- License:
- Abstract: Despite exceptional achievements, training neural networks remains computationally expensive and is often plagued by instabilities that can degrade convergence. While learning rate schedules can help mitigate these issues, finding optimal schedules is time-consuming and resource-intensive. This work explores theoretical issues concerning training stability in the constant-learning-rate (i.e., without schedule) and small-batch-size regime. Surprisingly, we show that the order of gradient updates affects stability and convergence in gradient-based optimizers. We illustrate this new line of thinking using backward-SGD, which processes batch gradient updates like SGD but in reverse order. Our theoretical analysis shows that in contractive regions (e.g., around minima) backward-SGD converges to a point while the standard forward-SGD generally only converges to a distribution. This leads to improved stability and convergence which we demonstrate experimentally. While full backward-SGD is computationally intensive in practice, it highlights opportunities to exploit reverse training dynamics (or more generally alternate iteration orders) to improve training. To our knowledge, this represents a new and unexplored avenue in deep learning optimization.
- Abstract(参考訳): 例外的な成果にもかかわらず、ニューラルネットワークのトレーニングは計算に高価であり、収束を低下させる不安定さに悩まされることが多い。
学習率のスケジュールはこれらの問題を緩和するのに役立ちますが、最適なスケジュールを見つけるには時間とリソースがかかります。
本研究は,定時学習率(スケジュールなし)と小バッチサイズ体制における訓練安定性に関する理論的問題について考察する。
驚いたことに、勾配更新の順序は勾配に基づく最適化器の安定性と収束に影響を及ぼす。
SGDのようなバッチ勾配更新を処理するが、逆順に処理する。
我々の理論的解析は、縮小領域(例えば、ミニマ付近)において、標準前方SGDは一般に分布に収束する一方、後方SGDは点に収束することを示している。
これにより安定性と収束性が向上し、実験で実証した。
フルバックワードSGDは実際は計算集約的であるが、トレーニングを改善するために逆トレーニングダイナミクス(あるいはより一般的には交互反復順序)を利用する機会を強調している。
私たちの知る限り、これはディープラーニングの最適化における新たな未探索の道の1つです。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - On discretisation drift and smoothness regularisation in neural network
training [0.0]
私たちは、最適化とモデル正規化に焦点をあてて、ディープラーニングの理解を改善するためのステップを作ることを目標としています。
まず、最も一般的なディープラーニング最適化アルゴリズムに基づいて、離散時間アルゴリズムである勾配降下(GD)を調査することから始める。
NGFと異なり、これらの新たな流れは、教師付き学習や2人のプレイヤゲームで観察されるトレーニング不安定性など、GDの学習速度固有の振る舞いを記述するのに使用できる。
そして、新しい学習率スケジュールと正則性を構築することにより、連続時間からの洞察を不安定なGDダイナミクスの緩和戦略に変換する。
論文 参考訳(メタデータ) (2023-10-21T15:21:36Z) - Overcoming Recency Bias of Normalization Statistics in Continual
Learning: Balance and Adaptation [67.77048565738728]
継続的な学習には、一連のタスクを学習し、彼らの知識を適切にバランスさせることが含まれる。
本稿では,タスク・ワイド・コントリビューションに適応するためのベイズ的戦略を適切に取り入れた BN の適応バランス (AdaB$2$N) を提案する。
提案手法は,幅広いベンチマークにおいて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T04:50:40Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Scheduled Restart Momentum for Accelerated Stochastic Gradient Descent [32.40217829362088]
我々は、ディープニューラルネットワーク(DNN)をトレーニングするための新しいNAGスタイルのスキームを提案する。
SRSGDは、NAGの運動量の増加によってSGDの定数運動量を置き換えるが、スケジュールに従って運動量を0にリセットすることで繰り返しを安定化させる。
CIFARとImageNetの両方で、SRSGDはSGDベースラインと比較して、トレーニングのエポックを著しく少なくして、類似またはそれ以上のエラー率に達する。
論文 参考訳(メタデータ) (2020-02-24T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。