Fugu-MT 論文翻訳(概要): The instabilities of large learning rate training: a loss landscape view

論文の概要: The instabilities of large learning rate training: a loss landscape view

arxiv url: http://arxiv.org/abs/2307.11948v1
Date: Sat, 22 Jul 2023 00:07:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 18:59:39.857871
Title: The instabilities of large learning rate training: a loss landscape view
Title（参考訳）: 大規模学習率トレーニングの不安定性--ロスランドスケープの展望
Authors: Lawrence Wang and Stephen Roberts
Abstract要約: 本研究では,学習率の高いネットワークトレーニングにおいて,ヘッセン行列を考慮した損失景観について検討する。我々は勾配降下の不安定性を特徴づけ、テクトランドスケープ平坦化とテクトランドスケープシフトの顕著な現象を観察する。
参考スコア（独自算出の注目度）: 2.4366811507669124
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern neural networks are undeniably successful. Numerous works study how the curvature of loss landscapes can affect the quality of solutions. In this work we study the loss landscape by considering the Hessian matrix during network training with large learning rates - an attractive regime that is (in)famously unstable. We characterise the instabilities of gradient descent, and we observe the striking phenomena of \textit{landscape flattening} and \textit{landscape shift}, both of which are intimately connected to the instabilities of training.
Abstract（参考訳）: 現代のニューラルネットワークは間違いなく成功している。多くの研究が、損失景観の曲率が溶液の質に与える影響について研究している。本研究では,大きな学習率を持つネットワークトレーニングにおいて,ヘッセン行列を考慮した損失景観について検討する。勾配降下の不安定性を特徴とし,その不安定性と密接な関係にある \textit{landscape flattening} と \textit{landscape shift} の驚くべき現象を観察した。

関連論文リスト

The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions [51.68215326304272]
たとえ小さな摂動であっても、同じ訓練軌跡を確実に引き起こすことで、トレーニング時間とともに急速に減少する効果が発散することを示します。この結果から,ニューラルネットワークのトレーニング安定性,微調整,モデルマージ,モデルアンサンブルの多様性の実践的意味が示唆された。
論文参考訳（メタデータ） (2025-06-16T08:35:16Z)
Can Stability be Detrimental? Better Generalization through Gradient Descent Instabilities [14.741581246137404]
本研究では,大きな学習率によって引き起こされる不安定さが,損失景観の平坦な領域へモデルパラメータを移動させることを示す。最新のベンチマークデータセットでは,これらが優れた一般化性能をもたらすことが判明した。
論文参考訳（メタデータ） (2024-12-23T14:32:53Z)
Dynamical loss functions shape landscape topography and improve learning in artificial neural networks [0.9208007322096533]
クロスエントロピーと平均二乗誤差を動的損失関数に変換する方法を示す。異なるサイズのネットワークに対する検証精度を大幅に向上させる方法を示す。
論文参考訳（メタデータ） (2024-10-14T16:27:03Z)
Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。ネットワークが強力なデータ依存機能を取得することを示す。驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文参考訳（メタデータ） (2024-06-24T14:50:05Z)
Training on the Edge of Stability Is Caused by Layerwise Jacobian Alignment [0.0]
我々は指数的解法を用いて、安定性の端に入ることなくニューラルネットワークを訓練する。実験により,ヘッセン行列の鋭さの増加は,ネットワークの層状ジャコビアン行列の整合性によって引き起こされることを示した。
論文参考訳（メタデータ） (2024-05-31T18:37:06Z)
Understanding and Combating Robust Overfitting via Input Loss Landscape Analysis and Regularization [5.1024659285813785]
アドリアリトレーニングは過度に適合する傾向があり、原因は明らかになっていない。標準的なトレーニング,特にクリーンロスの最小化による,堅牢なオーバーフィッティング結果が得られます。対向方向に沿った重み付きロジット変動をペナル化することにより、損失景観の平滑化を図るための新しい正規化器を提案する。
論文参考訳（メタデータ） (2022-12-09T16:55:30Z)
A Loss Curvature Perspective on Training Instability in Deep Learning [28.70491071044542]
学習力学における損失の曲率の影響を理解するため,多くの分類課題における損失ヘッセンの進化について検討した。条件付けの観点から,学習率のウォームアップはバッチ正規化と同じくらいのトレーニング安定性を向上できることを示した。
論文参考訳（メタデータ） (2021-10-08T20:25:48Z)
Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文参考訳（メタデータ） (2021-09-12T23:14:06Z)
Gradient Descent on Neural Networks Typically Occurs at the Edge of Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文参考訳（メタデータ） (2021-02-26T22:08:19Z)
Tilting the playing field: Dynamical loss functions for machine learning [18.831125493827766]
学習中に周期的に進化する損失関数を用いて1つのクラスを同時に強調することにより、学習を改善することができることを示す。改善は、損失を最小限に抑えるために進化するシステムのダイナミクスと、変化する損失景観の相互作用から生じる。
論文参考訳（メタデータ） (2021-02-07T13:15:08Z)
On the Loss Landscape of Adversarial Training: Identifying Challenges and How to Overcome Them [57.957466608543676]
機械学習モデルの損失景観に及ぼす対人訓練の影響を解析する。曲率の増加と散乱勾配の増大により, 対向損失景観は最適化にはあまり好ましくないことを示す。
論文参考訳（メタデータ） (2020-06-15T13:50:23Z)
Understanding the Role of Training Regimes in Continual Learning [51.32945003239048]
破滅的な忘れは、ニューラルネットワークのトレーニングに影響を与え、複数のタスクを逐次学習する能力を制限する。本研究では,タスクの局所的なミニマを拡大するトレーニング体制の形成に及ぼすドロップアウト,学習速度の低下,バッチサイズの影響について検討した。
論文参考訳（メタデータ） (2020-06-12T06:00:27Z)
The Break-Even Point on Optimization Trajectories of Deep Neural Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文参考訳（メタデータ） (2020-02-21T22:55:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。