Fugu-MT 論文翻訳(概要): On regularization of gradient descent, layer imbalance and flat minima

論文の概要: On regularization of gradient descent, layer imbalance and flat minima

arxiv url: http://arxiv.org/abs/2007.09286v1
Date: Sat, 18 Jul 2020 00:09:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-09 05:16:20.668996
Title: On regularization of gradient descent, layer imbalance and flat minima
Title（参考訳）: 勾配降下, 層不均衡, 平坦極小の正則化について
Authors: Boris Ginsburg
Abstract要約: 我々は、解の平坦性を定義する新しい計量-不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。重み付け減衰や雑音データ増大などの異なる正規化手法も同様に振る舞うことを実証する。
参考スコア（独自算出の注目度）: 9.08659783613403
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We analyze the training dynamics for deep linear networks using a new metric - layer imbalance - which defines the flatness of a solution. We demonstrate that different regularization methods, such as weight decay or noise data augmentation, behave in a similar way. Training has two distinct phases: 1) optimization and 2) regularization. First, during the optimization phase, the loss function monotonically decreases, and the trajectory goes toward a minima manifold. Then, during the regularization phase, the layer imbalance decreases, and the trajectory goes along the minima manifold toward a flat area. Finally, we extend the analysis for stochastic gradient descent and show that SGD works similarly to noise regularization.
Abstract（参考訳）: 我々は、解の平坦性を定義する新しい計量-層不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。重みの減衰やノイズデータ拡張といった異なる正規化手法が同じように振る舞うことを実証する。訓練には2つの段階がある。 1【最適化】 2) 規則化。まず、最適化フェーズの間、損失関数は単調に減少し、軌道はミニマ多様体に向かう。そして、正則化フェーズの間、層の不均衡が減少し、軌道は極小多様体に沿って平坦な領域に向かう。最後に、確率勾配降下の解析を拡張し、SGDが雑音正規化と同様に動作することを示す。

関連論文リスト

A Theoretical Framework for Grokking: Interpolation followed by Riemannian Norm Minimisation [12.321507997896218]
一般訓練損失$F: mathbbRd から mathbbR$ への勾配流のダイナミクスについて検討する。
論文参考訳（メタデータ） (2025-05-26T16:12:45Z)
Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文参考訳（メタデータ） (2024-10-12T17:50:58Z)
Discrete error dynamics of mini-batch gradient descent for least squares regression [4.159762735751163]
置換のないサンプリングにおいて,少なくとも正方形に対するミニバッチ勾配勾配のダイナミクスについて検討した。また、連続時間勾配流解析では検出できない離散化効果について検討し、最小バッチ勾配降下がステップサイズ依存解に収束することを示す。
論文参考訳（メタデータ） (2024-06-06T02:26:14Z)
Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)
Convergence of mean-field Langevin dynamics: Time and space discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文参考訳（メタデータ） (2023-06-12T16:28:11Z)
Aiming towards the minimizers: fast convergence of SGD for overparametrized problems [25.077446336619378]
本稿では,勾配法と同一のケース複雑性を有する勾配法を提案する。既存の保証は全て勾配法で小さなステップを踏む必要があり、結果として収束速度ははるかに遅くなる。我々は,線形出力層を用いた十分に広いフィードフォワードニューラルネットワークのトレーニングにおいて,この条件が成り立つことを実証した。
論文参考訳（メタデータ） (2023-06-05T05:21:01Z)
Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文参考訳（メタデータ） (2022-10-13T15:09:54Z)
Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文参考訳（メタデータ） (2022-03-30T11:39:00Z)
Bilevel learning of l1-regularizers with closed-form gradients(BLORC) [8.138650738423722]
本稿では,スパーシティー促進型正規化器の教師あり学習法を提案する。これらのパラメータは、基底真理信号と測定ペアのトレーニングセットにおける再構成の平均2乗誤差を最小限に抑えるために学習される。
論文参考訳（メタデータ） (2021-11-21T17:01:29Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
Implicit Gradient Regularization [18.391141066502644]
勾配降下は、過度に適合せず、明示的な正規化もなく、ディープニューラルネットワークを最適化するのに驚くほど適しています。我々はImplicit Gradient Regularization (IGR)と呼び、後方誤差解析を用いて正規化のサイズを計算する。
論文参考訳（メタデータ） (2020-09-23T14:17:53Z)
Dynamical mean-field theory for stochastic gradient descent in Gaussian mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。連続次元勾配流に拡張可能なプロトタイププロセスを定義する。フルバッチ限界では、標準勾配流を回復する。
論文参考訳（メタデータ） (2020-06-10T22:49:41Z)
Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文参考訳（メタデータ） (2020-06-04T21:51:21Z)
The Implicit Bias of Gradient Descent on Separable Data [44.98410310356165]
予測器は最大マージン(シャープマージンSVM)解の方向へ収束することを示す。これは、トレーニングエラーがゼロになった後もロジスティックまたはクロスエントロピー損失を最適化し続ける利点を説明するのに役立つ。
論文参考訳（メタデータ） (2017-10-27T21:47:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。