論文の概要: Critical Point-Finding Methods Reveal Gradient-Flat Regions of Deep
Network Losses
- arxiv url: http://arxiv.org/abs/2003.10397v1
- Date: Mon, 23 Mar 2020 17:16:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 23:24:09.934000
- Title: Critical Point-Finding Methods Reveal Gradient-Flat Regions of Deep
Network Losses
- Title(参考訳): 深部ネットワーク損失の勾配領域を探索する臨界点フィンディング法
- Authors: Charles G. Frye, James Simon, Neha S. Wadia, Andrew Ligeralde, Michael
R. DeWeese, Kristofer E. Bouchard
- Abstract要約: 勾配に基づくアルゴリズムは、ランダムな初期点からほぼ同じ性能に収束する。
提案手法は, 決定的臨界点を見つけるために用いられる手法が, それ自体が悪いミニマ問題に悩まされていることを示す。
- 参考スコア(独自算出の注目度): 2.046307988932347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the fact that the loss functions of deep neural networks are highly
non-convex, gradient-based optimization algorithms converge to approximately
the same performance from many random initial points. One thread of work has
focused on explaining this phenomenon by characterizing the local curvature
near critical points of the loss function, where the gradients are near zero,
and demonstrating that neural network losses enjoy a no-bad-local-minima
property and an abundance of saddle points. We report here that the methods
used to find these putative critical points suffer from a bad local minima
problem of their own: they often converge to or pass through regions where the
gradient norm has a stationary point. We call these gradient-flat regions,
since they arise when the gradient is approximately in the kernel of the
Hessian, such that the loss is locally approximately linear, or flat, in the
direction of the gradient. We describe how the presence of these regions
necessitates care in both interpreting past results that claimed to find
critical points of neural network losses and in designing second-order methods
for optimizing neural networks.
- Abstract(参考訳): ディープニューラルネットワークの損失関数は非常に非凸であるにもかかわらず、勾配に基づく最適化アルゴリズムは多くのランダム初期点からほぼ同じ性能に収束する。
ある研究のスレッドは、勾配がゼロに近い損失関数の臨界点付近の局所曲率を特徴付け、ニューラルネットワークの損失がバッド局所最小特性とサドル点の豊富さを享受していることを示すことで、この現象を説明することに焦点を当てている。
ここで,これらの臨界点を求めるために用いられる手法は,局所的な極小問題に苦しむことがあり,勾配ノルムが定常点を持つ領域に収束したり通過したりすることがしばしばある。
これらの勾配平坦領域は、勾配がヘッセン核のほぼ内側で発生し、損失が勾配の方向において局所的にほぼ直線的あるいは平坦であるときに生じるため、これらの勾配平坦領域と呼ばれる。
本稿では、これらの領域の存在が、ニューラルネットワークの損失の重要なポイントを見出したとする過去の結果の解釈と、ニューラルネットワークを最適化するための2階法の設計において、いかに注意が必要であるかを述べる。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Global Convergence Analysis of Deep Linear Networks with A One-neuron
Layer [18.06634056613645]
2次損失下で1つのニューロンを持つ層を有するディープ線形ネットワークを最適化することを検討する。
流下における任意の出発点を持つ軌道の収束点を記述する。
我々は,大域勾配器に段階的に収束する軌道の収束率を示す。
論文 参考訳(メタデータ) (2022-01-08T04:44:59Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。
3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文 参考訳(メタデータ) (2021-08-04T13:10:30Z) - The loss landscape of deep linear neural networks: a second-order analysis [9.85879905918703]
正方形損失を伴う深部線形ニューラルネットワークの最適化環境について検討する。
我々は、すべての臨界点の中で、大域最小化点、厳格なサドル点、非制限サドル点を特徴づける。
論文 参考訳(メタデータ) (2021-07-28T11:33:18Z) - The layer-wise L1 Loss Landscape of Neural Nets is more complex around
local minima [3.04585143845864]
我々はDeep ReLU Simplexアルゴリズムを用いて隣接頂点における損失を単調に最小化する。
局所最小値の周りの近所では、反復は、損失レベルと局所最小値の近接に関する結論が発見される前に行われるように異なる行動をとる。
これは新しい勾配-descentアルゴリズムの設計に広範な影響をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-05-06T17:18:44Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z) - On the Convex Behavior of Deep Neural Networks in Relation to the
Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。
言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文 参考訳(メタデータ) (2020-01-14T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。