論文の概要: Understanding Global Loss Landscape of One-hidden-layer ReLU Networks,
Part 2: Experiments and Analysis
- arxiv url: http://arxiv.org/abs/2006.09192v1
- Date: Mon, 15 Jun 2020 10:50:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 03:33:10.161196
- Title: Understanding Global Loss Landscape of One-hidden-layer ReLU Networks,
Part 2: Experiments and Analysis
- Title(参考訳): 単層reluネットワークのグローバルロスランドスケープの理解, その2:実験と解析
- Authors: Bo Liu
- Abstract要約: まず、1次元ガウスデータの局所最小値の確率と、それが重量空間全体においてどのように変化するかを分析する。
次に、真の局所ミニマの存在を判断するための線形プログラミングに基づくアプローチを設計、実装する。
隠れた神経細胞がサンプルによって活性化されると、ほとんどどこにでも重量空間で識別可能な局所性ミニマが存在しないことがわかりました。
- 参考スコア(独自算出の注目度): 4.976129960952446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existence of local minima for one-hidden-layer ReLU networks has been
investigated theoretically in [8]. Based on the theory, in this paper, we first
analyze how big the probability of existing local minima is for 1D Gaussian
data and how it varies in the whole weight space. We show that this probability
is very low in most regions. We then design and implement a linear programming
based approach to judge the existence of genuine local minima, and use it to
predict whether bad local minima exist for the MNIST and CIFAR-10 datasets, and
find that there are no bad differentiable local minima almost everywhere in
weight space once some hidden neurons are activated by samples. These
theoretical predictions are verified experimentally by showing that gradient
descent is not trapped in the cells from which it starts. We also perform
experiments to explore the count and size of differentiable cells in the weight
space.
- Abstract(参考訳): 1層ReLUネットワークにおける局所ミニマの存在は[8]で理論的に研究されている。
この理論に基づいて、本論文では、既存の局所最小値の確率が1次元ガウスデータに対してどれほど大きいか、および重量空間全体でどのように変化するかを分析する。
この確率は、ほとんどの地域で非常に低いことを示す。
次に,本手法を用いて,MNIST と CIFAR-10 データセットに悪局部ミニマが存在するかどうかを判断する線形プログラミングに基づく手法を設計し,実装し,いくつかの隠れニューロンがサンプルによって活性化されると,ほぼ至る所で悪い局部ミニマが存在しないことを確認する。
これらの理論的予測は、勾配降下が開始する細胞に閉じ込められていないことを示すことによって実験的に検証される。
また,重量空間における微分可能細胞の数とサイズを探索する実験を行った。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Neighborhood Region Smoothing Regularization for Finding Flat Minima In
Deep Neural Networks [16.4654807047138]
我々はNRS(Neighborhood Region Smoothing)と呼ばれる効果的な正規化手法を提案する。
NRSは、近似出力を得るために、重量空間の近傍領域を規則化しようとする。
NRSによって発見されたミニマは、従来の方法に比べて比較的小さなヘッセン固有値を持つことを実証的に示す。
論文 参考訳(メタデータ) (2022-01-16T15:11:00Z) - LDC-Net: A Unified Framework for Localization, Detection and Counting in
Dense Crowds [103.8635206945196]
視覚的群集分析の急速な発展は、単に密度マップを要約するのではなく、位置決めや検出によって人を数える傾向を示している。
群集の局所化と検出に関する最近の研究には,1) 群集を扱えない典型的な検出法と,大規模に変化する群集を扱えないこと,2) 密度マップ法は,特に高密度群集や大規模群集において,位置とボックスの予測における性能不足に悩まされていること,の2つの制限がある。
論文 参考訳(メタデータ) (2021-10-10T07:55:44Z) - Unveiling the structure of wide flat minima in neural networks [0.46664938579243564]
ディープラーニングは、科学全体にわたるネットワークの応用の可能性を明らかにしている。
ディープラーニングの成功は、科学全体にわたるネットワークの適用可能性を明らかにしている。
論文 参考訳(メタデータ) (2021-07-02T16:04:57Z) - Effective Version Space Reduction for Convolutional Neural Networks [61.84773892603885]
アクティブラーニングでは、サンプリングバイアスは深刻な矛盾問題を引き起こし、アルゴリズムが最適な仮説を見つけるのを妨げる可能性がある。
本稿では,畳み込みニューラルネットワークを用いた能動学習について,バージョン空間削減の原理的レンズを用いて検討する。
論文 参考訳(メタデータ) (2020-06-22T17:40:03Z) - How Many Samples is a Good Initial Point Worth in Low-rank Matrix
Recovery? [12.589519278962378]
非ランク行列回復問題には、急激な局所最小値が含まれない。
初期推定値の品質とそれに対応するデータ要求量の減少との関係を定量化する。
論文 参考訳(メタデータ) (2020-06-12T02:47:03Z) - Understanding Global Loss Landscape of One-hidden-layer ReLU Networks,
Part 1: Theory [4.976129960952446]
一層ReLUネットワークの場合、すべての微分可能な局所ミニマが大域的に微分可能な領域内に存在することが証明される。
これらの局所的なミニマは、データ間の相互作用、隠れたニューロンの活性化パターン、ネットワークサイズに応じて、孤立点または連続した超平面となりうることを示す。
論文 参考訳(メタデータ) (2020-02-12T02:04:55Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。