論文の概要: Critical Point-Finding Methods Reveal Gradient-Flat Regions of Deep
Network Losses
- arxiv url: http://arxiv.org/abs/2003.10397v1
- Date: Mon, 23 Mar 2020 17:16:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 23:24:09.934000
- Title: Critical Point-Finding Methods Reveal Gradient-Flat Regions of Deep
Network Losses
- Title(参考訳): 深部ネットワーク損失の勾配領域を探索する臨界点フィンディング法
- Authors: Charles G. Frye, James Simon, Neha S. Wadia, Andrew Ligeralde, Michael
R. DeWeese, Kristofer E. Bouchard
- Abstract要約: 勾配に基づくアルゴリズムは、ランダムな初期点からほぼ同じ性能に収束する。
提案手法は, 決定的臨界点を見つけるために用いられる手法が, それ自体が悪いミニマ問題に悩まされていることを示す。
- 参考スコア(独自算出の注目度): 2.046307988932347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the fact that the loss functions of deep neural networks are highly
non-convex, gradient-based optimization algorithms converge to approximately
the same performance from many random initial points. One thread of work has
focused on explaining this phenomenon by characterizing the local curvature
near critical points of the loss function, where the gradients are near zero,
and demonstrating that neural network losses enjoy a no-bad-local-minima
property and an abundance of saddle points. We report here that the methods
used to find these putative critical points suffer from a bad local minima
problem of their own: they often converge to or pass through regions where the
gradient norm has a stationary point. We call these gradient-flat regions,
since they arise when the gradient is approximately in the kernel of the
Hessian, such that the loss is locally approximately linear, or flat, in the
direction of the gradient. We describe how the presence of these regions
necessitates care in both interpreting past results that claimed to find
critical points of neural network losses and in designing second-order methods
for optimizing neural networks.
- Abstract(参考訳): ディープニューラルネットワークの損失関数は非常に非凸であるにもかかわらず、勾配に基づく最適化アルゴリズムは多くのランダム初期点からほぼ同じ性能に収束する。
ある研究のスレッドは、勾配がゼロに近い損失関数の臨界点付近の局所曲率を特徴付け、ニューラルネットワークの損失がバッド局所最小特性とサドル点の豊富さを享受していることを示すことで、この現象を説明することに焦点を当てている。
ここで,これらの臨界点を求めるために用いられる手法は,局所的な極小問題に苦しむことがあり,勾配ノルムが定常点を持つ領域に収束したり通過したりすることがしばしばある。
これらの勾配平坦領域は、勾配がヘッセン核のほぼ内側で発生し、損失が勾配の方向において局所的にほぼ直線的あるいは平坦であるときに生じるため、これらの勾配平坦領域と呼ばれる。
本稿では、これらの領域の存在が、ニューラルネットワークの損失の重要なポイントを見出したとする過去の結果の解釈と、ニューラルネットワークを最適化するための2階法の設計において、いかに注意が必要であるかを述べる。
関連論文リスト
- On the Stability of Gradient Descent for Large Learning Rate [62.19241612132701]
ニューラルネットワークトレーニングにおいて、エッジ・オブ・安定性(EoS)は、エポック上での損失関数の非単調な減少を特徴とする。
2次損失関数の下で最適化された線形ニューラルネットワークは、第1の仮定および第2の仮定に必要な条件を満たすことを示す。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Gradient descent provably escapes saddle points in the training of
shallow ReLU networks [3.0079490585515343]
関係する力学系の結果の変種、中心安定多様体定理を証明し、いくつかの正則性要件を緩和する。
アフィンターゲット関数に対して測定された浅部ReLUネットワークの2乗積分損失の臨界点の分類に基づいて、勾配降下がほとんどのサドル点を回避することを推定する。
論文 参考訳(メタデータ) (2022-08-03T14:08:52Z) - Global Convergence Analysis of Deep Linear Networks with A One-neuron
Layer [18.06634056613645]
2次損失下で1つのニューロンを持つ層を有するディープ線形ネットワークを最適化することを検討する。
流下における任意の出発点を持つ軌道の収束点を記述する。
我々は,大域勾配器に段階的に収束する軌道の収束率を示す。
論文 参考訳(メタデータ) (2022-01-08T04:44:59Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。
3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文 参考訳(メタデータ) (2021-08-04T13:10:30Z) - The layer-wise L1 Loss Landscape of Neural Nets is more complex around
local minima [3.04585143845864]
我々はDeep ReLU Simplexアルゴリズムを用いて隣接頂点における損失を単調に最小化する。
局所最小値の周りの近所では、反復は、損失レベルと局所最小値の近接に関する結論が発見される前に行われるように異なる行動をとる。
これは新しい勾配-descentアルゴリズムの設計に広範な影響をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-05-06T17:18:44Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - On the Convex Behavior of Deep Neural Networks in Relation to the
Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。
言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文 参考訳(メタデータ) (2020-01-14T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。