論文の概要: A Loss Curvature Perspective on Training Instability in Deep Learning
- arxiv url: http://arxiv.org/abs/2110.04369v1
- Date: Fri, 8 Oct 2021 20:25:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 15:21:29.416128
- Title: A Loss Curvature Perspective on Training Instability in Deep Learning
- Title(参考訳): 深層学習におけるトレーニング不安定性の損失曲線的視点
- Authors: Justin Gilmer, Behrooz Ghorbani, Ankush Garg, Sneha Kudugunta, Behnam
Neyshabur, David Cardoze, George Dahl, Zachary Nado, Orhan Firat
- Abstract要約: 学習力学における損失の曲率の影響を理解するため,多くの分類課題における損失ヘッセンの進化について検討した。
条件付けの観点から,学習率のウォームアップはバッチ正規化と同じくらいのトレーニング安定性を向上できることを示した。
- 参考スコア(独自算出の注目度): 28.70491071044542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study the evolution of the loss Hessian across many
classification tasks in order to understand the effect the curvature of the
loss has on the training dynamics. Whereas prior work has focused on how
different learning rates affect the loss Hessian observed during training, we
also analyze the effects of model initialization, architectural choices, and
common training heuristics such as gradient clipping and learning rate warmup.
Our results demonstrate that successful model and hyperparameter choices allow
the early optimization trajectory to either avoid -- or navigate out of --
regions of high curvature and into flatter regions that tolerate a higher
learning rate. Our results suggest a unifying perspective on how disparate
mitigation strategies for training instability ultimately address the same
underlying failure mode of neural network optimization, namely poor
conditioning. Inspired by the conditioning perspective, we show that learning
rate warmup can improve training stability just as much as batch normalization,
layer normalization, MetaInit, GradInit, and Fixup initialization.
- Abstract(参考訳): 本研究では,損失の曲率がトレーニング力学に与える影響を理解するために,多くの分類課題における損失ヘッセンの進化について検討する。
先行研究では,学習速度の違いが学習中のヘシアンの損失に与える影響に焦点が当てられているが,モデルの初期化,アーキテクチャ選択,勾配クリッピングや学習速度ウォームアップといった一般的なトレーニングヒューリスティックの影響も分析した。
その結果、モデルとハイパーパラメータの選択の成功により、早期の最適化軌道は、高い曲率の領域から、より高い学習率を許容するより平坦な領域への移動を回避できることがわかった。
この結果から,不安定なトレーニングにおける異なる緩和戦略が,最終的にニューラルネットワーク最適化の基盤となる障害モードである低条件化に最終的にどのように対処するか,という統一的な視点が示唆された。
条件づけの観点に触発されて,学習速度ウォームアップはバッチ正規化,レイヤ正規化,メタイット,gradinit,fixup初期化と同様に,トレーニング安定性を向上させることができることを示した。
関連論文リスト
- Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Gradient constrained sharpness-aware prompt learning for vision-language
models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。
最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。
本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T17:13:54Z) - Accelerated Training via Incrementally Growing Neural Networks using
Variance Transfer and Learning Rate Adaptation [34.7523496790944]
本研究では,ニューラルネットワークを効率的に成長させる手法を開発し,パラメータ化と最適化の戦略をトレーニングダイナミクスを考慮して設計する。
提案手法は,従来のトレーニング予算の大部分を節約しつつ,大規模な固定サイズモデルのトレーニングよりも高い精度で達成可能であることを示す。
論文 参考訳(メタデータ) (2023-06-22T07:06:45Z) - Continual Learning with Pretrained Backbones by Tuning in the Input
Space [44.97953547553997]
ディープラーニングモデルを非定常環境に適用することの本質的な困難さは、ニューラルネットワークの実際のタスクへの適用性を制限している。
ネットワークの事前学習部分の更新を回避し、通常の分類ヘッドだけでなく、新たに導入した学習可能なパラメータのセットも学習することで、微調整手順をより効果的にするための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-06-05T15:11:59Z) - On the Loss Landscape of Adversarial Training: Identifying Challenges
and How to Overcome Them [57.957466608543676]
機械学習モデルの損失景観に及ぼす対人訓練の影響を解析する。
曲率の増加と散乱勾配の増大により, 対向損失景観は最適化にはあまり好ましくないことを示す。
論文 参考訳(メタデータ) (2020-06-15T13:50:23Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。