Fugu-MT 論文翻訳(概要): On a continuous time model of gradient descent dynamics and instability in deep learning

論文の概要: On a continuous time model of gradient descent dynamics and instability in deep learning

arxiv url: http://arxiv.org/abs/2302.01952v3
Date: Wed, 13 Sep 2023 19:26:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 19:28:46.680659
Title: On a continuous time model of gradient descent dynamics and instability in deep learning
Title（参考訳）: 深層学習における勾配降下ダイナミクスと不安定性の連続時間モデルについて
Authors: Mihaela Rosca and Yan Wu and Chongli Qin and Benoit Dherin
Abstract要約: そこで本研究では,勾配降下力学を近似した連続時間流として主流れ(PF)を提案する。 PFは、ディープラーニングにおいて最近観測された安定性現象の端に光を放つ。不安定性に対する新たな理解を用いて,トレーニング安定性とテストセット評価性能のトレードオフを制御できる学習率適応法を提案する。
参考スコア（独自算出の注目度）: 12.20253214080485
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recipe behind the success of deep learning has been the combination of neural networks and gradient-based optimization. Understanding the behavior of gradient descent however, and particularly its instability, has lagged behind its empirical success. To add to the theoretical tools available to study gradient descent we propose the principal flow (PF), a continuous time flow that approximates gradient descent dynamics. To our knowledge, the PF is the only continuous flow that captures the divergent and oscillatory behaviors of gradient descent, including escaping local minima and saddle points. Through its dependence on the eigendecomposition of the Hessian the PF sheds light on the recently observed edge of stability phenomena in deep learning. Using our new understanding of instability we propose a learning rate adaptation method which enables us to control the trade-off between training stability and test set evaluation performance.
Abstract（参考訳）: ディープラーニングの成功の背景にあるレシピは、ニューラルネットワークと勾配に基づく最適化の組み合わせだ。しかし、勾配降下の挙動、特に不安定性を理解することは、その経験的成功を後押ししている。勾配降下の研究に利用可能な理論ツールに加え、勾配降下ダイナミクスを近似した連続時間流である主流れ(PF)を提案する。我々の知る限り、PFは局所的なミニマ点やサドル点からの脱出を含む勾配降下の発散と振動の挙動を捉える唯一の連続流である。ヘッセンの固有分解への依存を通じて、PFは深層学習において最近観測された安定性現象の端に光を放つ。不安定性に対する新たな理解を用いて,トレーニング安定性とテストセット評価性能のトレードオフを制御できる学習率適応法を提案する。

関連論文リスト

SplitLoRA: Balancing Stability and Plasticity in Continual Learning Through Gradient Space Splitting [68.00007494819798]
継続的な学習には、安定性を保ちながら複数のタスクを連続的に学習するモデルが必要である。グラディエント・プロジェクションはCLにおいて有効で一般的なパラダイムとして現れ、以前に学習したタスクの勾配空間を2つの部分空間に分割する。新しいタスクは小部分空間内で効果的に学習され、これにより以前取得した知識との干渉が軽減される。既存の勾配射影法は、勾配空間を適切に分割することが困難であるため、塑性と安定性の最適なバランスを達成するのに苦労する。
論文参考訳（メタデータ） (2025-05-28T13:57:56Z)
Gradient-free Continual Learning [0.0]
連続学習(CL)は、破滅的な忘れを経験することなく、シーケンシャルなタスクでニューラルネットワークを訓練する上で、根本的な課題となる。伝統的に、CLの主要なアプローチは勾配に基づく最適化であり、ネットワークパラメータの更新は勾配降下(SGD)またはその変種を用いて行われる。このような場合、過去のデータには勾配情報がないため、制御されていないパラメータが変化し、その結果、以前に学習したタスクをひどく忘れてしまう。我々は、勾配のない最適化手法が、従来の勾配に基づく連続学習手法に代わる堅牢な代替手段を提供することができるという仮説を探求する。
論文参考訳（メタデータ） (2025-04-01T22:18:59Z)
Feature Learning Beyond the Edge of Stability [8.430481660019451]
層幅パターンを隠蔽した均一な多層パーセプトロンパラメタライゼーションを提案し、勾配勾配下でのトレーニングダイナミクスを解析する。訓練中の最小バッチ損失の最初の3つのTaylor係数について,シャープネスと特徴学習の関連性を示す式を得る。
論文参考訳（メタデータ） (2025-02-18T18:23:33Z)
On discretisation drift and smoothness regularisation in neural network training [0.0]
私たちは、最適化とモデル正規化に焦点をあてて、ディープラーニングの理解を改善するためのステップを作ることを目標としています。まず、最も一般的なディープラーニング最適化アルゴリズムに基づいて、離散時間アルゴリズムである勾配降下(GD)を調査することから始める。 NGFと異なり、これらの新たな流れは、教師付き学習や2人のプレイヤゲームで観察されるトレーニング不安定性など、GDの学習速度固有の振る舞いを記述するのに使用できる。そして、新しい学習率スケジュールと正則性を構築することにより、連続時間からの洞察を不安定なGDダイナミクスの緩和戦略に変換する。
論文参考訳（メタデータ） (2023-10-21T15:21:36Z)
Investigating the Edge of Stability Phenomenon in Reinforcement Learning [20.631461205889487]
強化学習(RL)における安定性現象の端点を探る教師付き学習との大きな違いにもかかわらず、安定性現象の端は、非政治的な深いRLに存在している。この結果から,ニューラルネットワーク構造は問題領域間の移動を最適化するダイナミクスをもたらす可能性があるが,深いRL最適化の特定の側面は,教師付き学習のような領域と区別できる可能性が示唆された。
論文参考訳（メタデータ） (2023-07-09T15:46:27Z)
Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。 GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文参考訳（メタデータ） (2022-06-08T21:32:50Z)
A Loss Curvature Perspective on Training Instability in Deep Learning [28.70491071044542]
学習力学における損失の曲率の影響を理解するため,多くの分類課題における損失ヘッセンの進化について検討した。条件付けの観点から,学習率のウォームアップはバッチ正規化と同じくらいのトレーニング安定性を向上できることを示した。
論文参考訳（メタデータ） (2021-10-08T20:25:48Z)
Acceleration via Fractal Learning Rate Schedules [37.878672787331105]
学習率のスケジュールは理解が困難であり、チューニングに費用がかかることが知られている。我々は,数値解析文献からの反復的アルゴリズムを,バニラ勾配降下を加速するためのチェビシェフ学習率スケジュールと再解釈する。深層学習における「安定性の最先端」の理解に挑戦するための実験と議論を行う。
論文参考訳（メタデータ） (2021-03-01T22:52:13Z)
Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文参考訳（メタデータ） (2020-11-18T18:52:08Z)
Training Generative Adversarial Networks by Solving Ordinary Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文参考訳（メタデータ） (2020-10-28T15:23:49Z)
Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文参考訳（メタデータ） (2020-10-05T14:36:59Z)
Reintroducing Straight-Through Estimators as Principled Methods for Stochastic Binary Networks [85.94999581306827]
2重みとアクティベーションを持つニューラルネットワークのトレーニングは、勾配の欠如と離散重みよりも最適化が難しいため、難しい問題である。多くの実験結果が経験的ストレートスルー(ST)アプローチで達成されている。同時に、ST法はベルヌーイ重みを持つバイナリネットワーク(SBN)モデルにおける推定子として真に導出することができる。
論文参考訳（メタデータ） (2020-06-11T23:58:18Z)
Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。適応勾配法の一般化に関する経験的および理論的考察を示す。
論文参考訳（メタデータ） (2020-02-26T21:42:49Z)
The Break-Even Point on Optimization Trajectories of Deep Neural Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文参考訳（メタデータ） (2020-02-21T22:55:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。