論文の概要: The layer-wise L1 Loss Landscape of Neural Nets is more complex around
local minima
- arxiv url: http://arxiv.org/abs/2105.02831v1
- Date: Thu, 6 May 2021 17:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 14:58:51.185801
- Title: The layer-wise L1 Loss Landscape of Neural Nets is more complex around
local minima
- Title(参考訳): ニューラルネットの層状l1損失景観は、局所ミニマ周辺でより複雑である
- Authors: Peter Hinz
- Abstract要約: 我々はDeep ReLU Simplexアルゴリズムを用いて隣接頂点における損失を単調に最小化する。
局所最小値の周りの近所では、反復は、損失レベルと局所最小値の近接に関する結論が発見される前に行われるように異なる行動をとる。
これは新しい勾配-descentアルゴリズムの設計に広範な影響をもたらす可能性がある。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For fixed training data and network parameters in the other layers the L1
loss of a ReLU neural network as a function of the first layer's parameters is
a piece-wise affine function. We use the Deep ReLU Simplex algorithm to
iteratively minimize the loss monotonically on adjacent vertices and analyze
the trajectory of these vertex positions. We empirically observe that in a
neighbourhood around a local minimum, the iterations behave differently such
that conclusions on loss level and proximity of the local minimum can be made
before it has been found: Firstly the loss seems to decay exponentially slow at
iterated adjacent vertices such that the loss level at the local minimum can be
estimated from the loss levels of subsequently iterated vertices, and secondly
we observe a strong increase of the vertex density around local minima. This
could have far-reaching consequences for the design of new gradient-descent
algorithms that might improve convergence rate by exploiting these facts.
- Abstract(参考訳): 他の層の固定トレーニングデータとネットワークパラメータの場合、第1層のパラメータの関数としてのReLUニューラルネットワークのL1損失は、ピースワイズアフィン関数である。
我々はdeep relu simplexアルゴリズムを用いて隣接する頂点の損失を単調に最小化し、これらの頂点位置の軌跡を分析する。
まず,局所極小付近では,局所極小値の損失レベルから局所極小値の損失レベルを推定できるように,局所極小値の損失レベルが指数関数的に遅くなるように,局所極小値の損失レベルが局所極小値の損失レベルから推定されるように,局所極小値の損失レベルと局所極小値の近接に関する結論を導き出すように,異なる振る舞いをする。
これは、これらの事実を活用して収束率を改善する新しい勾配-descentアルゴリズムの設計に広範囲に及ぼす可能性がある。
関連論文リスト
- On the Stability of Gradient Descent for Large Learning Rate [62.19241612132701]
ニューラルネットワークトレーニングにおいて、エッジ・オブ・安定性(EoS)は、エポック上での損失関数の非単調な減少を特徴とする。
2次損失関数の下で最適化された線形ニューラルネットワークは、第1の仮定および第2の仮定に必要な条件を満たすことを示す。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Convex Relaxations of ReLU Neural Networks Approximate Global Optima in
Polynomial Time [54.01594785269913]
本稿では, 重み劣化と凸緩和に則った2層ReLUネットワーク間の最適性ギャップについて述べる。
トレーニングデータがランダムである場合、元の問題と緩和の間の相対的な最適性ギャップは、サンプルの勾配によって境界付けられることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - Training a Two Layer ReLU Network Analytically [4.94950858749529]
我々は、ReLUのような活性化と正方形損失を伴う2層ニューラルネットワークのトレーニングアルゴリズムについて検討する。
この方法は勾配降下法よりも高速で、チューニングパラメータがほとんどない。
論文 参考訳(メタデータ) (2023-04-06T09:57:52Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Gradient descent provably escapes saddle points in the training of
shallow ReLU networks [3.0079490585515343]
関係する力学系の結果の変種、中心安定多様体定理を証明し、いくつかの正則性要件を緩和する。
アフィンターゲット関数に対して測定された浅部ReLUネットワークの2乗積分損失の臨界点の分類に基づいて、勾配降下がほとんどのサドル点を回避することを推定する。
論文 参考訳(メタデータ) (2022-08-03T14:08:52Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。
3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文 参考訳(メタデータ) (2021-08-04T13:10:30Z) - LocoProp: Enhancing BackProp via Local Loss Optimization [27.93980177594535]
ニューラルネットワークの最適化のための局所的損失構築手法について検討する。
我々は, コンバージェンスを継続的に改善し, 第一次法と第二次法のギャップを小さくすることを示した。
論文 参考訳(メタデータ) (2021-06-11T07:00:02Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z) - Critical Point-Finding Methods Reveal Gradient-Flat Regions of Deep
Network Losses [2.046307988932347]
勾配に基づくアルゴリズムは、ランダムな初期点からほぼ同じ性能に収束する。
提案手法は, 決定的臨界点を見つけるために用いられる手法が, それ自体が悪いミニマ問題に悩まされていることを示す。
論文 参考訳(メタデータ) (2020-03-23T17:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。