論文の概要: The layer-wise L1 Loss Landscape of Neural Nets is more complex around
local minima
- arxiv url: http://arxiv.org/abs/2105.02831v1
- Date: Thu, 6 May 2021 17:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 14:58:51.185801
- Title: The layer-wise L1 Loss Landscape of Neural Nets is more complex around
local minima
- Title(参考訳): ニューラルネットの層状l1損失景観は、局所ミニマ周辺でより複雑である
- Authors: Peter Hinz
- Abstract要約: 我々はDeep ReLU Simplexアルゴリズムを用いて隣接頂点における損失を単調に最小化する。
局所最小値の周りの近所では、反復は、損失レベルと局所最小値の近接に関する結論が発見される前に行われるように異なる行動をとる。
これは新しい勾配-descentアルゴリズムの設計に広範な影響をもたらす可能性がある。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For fixed training data and network parameters in the other layers the L1
loss of a ReLU neural network as a function of the first layer's parameters is
a piece-wise affine function. We use the Deep ReLU Simplex algorithm to
iteratively minimize the loss monotonically on adjacent vertices and analyze
the trajectory of these vertex positions. We empirically observe that in a
neighbourhood around a local minimum, the iterations behave differently such
that conclusions on loss level and proximity of the local minimum can be made
before it has been found: Firstly the loss seems to decay exponentially slow at
iterated adjacent vertices such that the loss level at the local minimum can be
estimated from the loss levels of subsequently iterated vertices, and secondly
we observe a strong increase of the vertex density around local minima. This
could have far-reaching consequences for the design of new gradient-descent
algorithms that might improve convergence rate by exploiting these facts.
- Abstract(参考訳): 他の層の固定トレーニングデータとネットワークパラメータの場合、第1層のパラメータの関数としてのReLUニューラルネットワークのL1損失は、ピースワイズアフィン関数である。
我々はdeep relu simplexアルゴリズムを用いて隣接する頂点の損失を単調に最小化し、これらの頂点位置の軌跡を分析する。
まず,局所極小付近では,局所極小値の損失レベルから局所極小値の損失レベルを推定できるように,局所極小値の損失レベルが指数関数的に遅くなるように,局所極小値の損失レベルが局所極小値の損失レベルから推定されるように,局所極小値の損失レベルと局所極小値の近接に関する結論を導き出すように,異なる振る舞いをする。
これは、これらの事実を活用して収束率を改善する新しい勾配-descentアルゴリズムの設計に広範囲に及ぼす可能性がある。
関連論文リスト
- Deep Loss Convexification for Learning Iterative Models [11.36644967267829]
点雲登録のための反復的最近点(ICP)のような反復的手法は、しばしば悪い局所最適性に悩まされる。
我々は,各地真実の周囲に凸景観を形成する学習を提案する。
論文 参考訳(メタデータ) (2024-11-16T01:13:04Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Convex Relaxations of ReLU Neural Networks Approximate Global Optima in Polynomial Time [45.72323731094864]
本稿では,2層ReLULUネットワーク間における重み減衰と凸緩和の最適性ギャップについて検討する。
私たちの研究は、なぜローカルメソッドがうまく機能するのかを理解することに新たな光を当てています。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - Training a Two Layer ReLU Network Analytically [4.94950858749529]
我々は、ReLUのような活性化と正方形損失を伴う2層ニューラルネットワークのトレーニングアルゴリズムについて検討する。
この方法は勾配降下法よりも高速で、チューニングパラメータがほとんどない。
論文 参考訳(メタデータ) (2023-04-06T09:57:52Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。
3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文 参考訳(メタデータ) (2021-08-04T13:10:30Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - When does gradient descent with logistic loss find interpolating
two-layer networks? [51.1848572349154]
また,初期損失が十分小さい場合,勾配降下がトレーニング損失をゼロにすることを示した。
データが一定のクラスタと分離条件を満たし、ネットワークが十分に広い場合、勾配降下の一段階が、最初の結果が適用されるほど損失を十分に減少させることを示す。
論文 参考訳(メタデータ) (2020-12-04T05:16:51Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z) - Critical Point-Finding Methods Reveal Gradient-Flat Regions of Deep
Network Losses [2.046307988932347]
勾配に基づくアルゴリズムは、ランダムな初期点からほぼ同じ性能に収束する。
提案手法は, 決定的臨界点を見つけるために用いられる手法が, それ自体が悪いミニマ問題に悩まされていることを示す。
論文 参考訳(メタデータ) (2020-03-23T17:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。