論文の概要: Demystifying the Global Convergence Puzzle of Learning
Over-parameterized ReLU Nets in Very High Dimensions
- arxiv url: http://arxiv.org/abs/2206.03254v1
- Date: Sun, 5 Jun 2022 02:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 13:42:54.511449
- Title: Demystifying the Global Convergence Puzzle of Learning
Over-parameterized ReLU Nets in Very High Dimensions
- Title(参考訳): 超高次元の超パラメータreluネット学習による大域収束パズルの解法化
- Authors: Peng He
- Abstract要約: 本稿では,超次元データ学習という難解なシナリオにおいて,グローバル収束現象をデミステマイズするための厳密な理論に焦点をあてる。
この説の主な要素は、それがそれがそれが事実であるということであり、それがそれが事実であるということであり、それが事実であるということであり、それがそれが事実であるということであり、それがそれがそれがそれが事実であるということであるということである、というものである。
- 参考スコア(独自算出の注目度): 1.3401746329218014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This theoretical paper is devoted to developing a rigorous theory for
demystifying the global convergence phenomenon in a challenging scenario:
learning over-parameterized Rectified Linear Unit (ReLU) nets for very high
dimensional dataset under very mild assumptions. A major ingredient of our
analysis is a fine-grained analysis of random activation matrices. The
essential virtue of dissecting activation matrices is that it bridges the
dynamics of optimization and angular distribution in high-dimensional data
space. This angle-based detailed analysis leads to asymptotic characterizations
of gradient norm and directional curvature of objective function at each
gradient descent iteration, revealing that the empirical loss function enjoys
nice geometrical properties in the overparameterized setting. Along the way, we
significantly improve existing theoretical bounds on both over-parameterization
condition and learning rate with very mild assumptions for learning very high
dimensional data. Moreover, we uncover the role of the geometrical and spectral
properties of the input data in determining desired over-parameterization size
and global convergence rate. All these clues allow us to discover a novel
geometric picture of nonconvex optimization in deep learning: angular
distribution in high-dimensional data space $\mapsto$ spectrums of
overparameterized activation matrices $\mapsto$ favorable geometrical
properties of empirical loss landscape $\mapsto$ global convergence phenomenon.
Furthremore, our theoretical results imply that gradient-based nonconvex
optimization algorithms have much stronger statistical guarantees with much
milder over-parameterization condition than exisiting theory states for
learning very high dimensional data, which is rarely explored so far.
- Abstract(参考訳): この理論論文は,超過パラメータ整流線形単位(ReLU)ネットを極めて軽度な仮定で高次元データセットに学習するという,グローバル収束現象を決定づける厳密な理論を,困難なシナリオで開発することを目的としている。
本解析の主な要素はランダム活性化行列の細粒度解析である。
活性化行列を分解する本質的な利点は、高次元データ空間における最適化と角分布のダイナミクスを橋渡しすることである。
この角度に基づく詳細な解析は、各勾配降下反復における勾配ノルムの漸近的特徴付けと目的関数の方向曲率をもたらし、経験的損失関数が過剰パラメータ設定において優れた幾何学的性質を享受していることを明らかにする。
その過程で、超高次元データを学習するための非常に穏やかな仮定により、超パラメータ条件と学習率の両方の既存の理論境界を大幅に改善する。
さらに,入力データの幾何学的およびスペクトル的特性が,所望の超パラメータサイズと大域収束率を決定する上で果たす役割を明らかにする。
これらの手がかりはすべて、深層学習における非凸最適化の新たな幾何学的イメージを見つけることができる: 高次元データ空間における角分布 $\mapsto$ 過剰パラメータ化活性化行列のスペクトル $\mapsto$ 経験的損失景観の幾何学的性質 $\mapsto$ global convergence phenomena
Furthreremore,我々の理論的結果は、勾配に基づく非凸最適化アルゴリズムは、非常に高次元データを学習するための理論状態よりも遥かに緩やかに過度なパラメータ化条件で、より強力な統計的保証を有することを示唆している。
関連論文リスト
- Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Implicit Balancing and Regularization: Generalization and Convergence
Guarantees for Overparameterized Asymmetric Matrix Sensing [28.77440901439686]
最近の一連の論文は、非ランダムな正準決定(PSD)行列センシング問題に対して、この役割を一般化し始めている。
本稿では,小さなランダムな測定から得られる勾配降下の軌跡が,どちらも地球規模で良好である解へと移動することを示す。
論文 参考訳(メタデータ) (2023-03-24T19:05:52Z) - Laplacian-based Cluster-Contractive t-SNE for High Dimensional Data
Visualization [20.43471678277403]
本稿では t-SNE に基づく新しいグラフベース次元削減手法 LaptSNE を提案する。
具体的には、LaptSNEはグラフラプラシアンの固有値情報を利用して、低次元埋め込みにおけるポテンシャルクラスタを縮小する。
ラプラシアン合成目的による最適化を考える際には、より広い関心を持つであろう勾配を解析的に計算する方法を示す。
論文 参考訳(メタデータ) (2022-07-25T14:10:24Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Deep Dimension Reduction for Supervised Representation Learning [51.10448064423656]
本研究は,本質的な特徴を持つ学習表現の次元削減手法を提案する。
提案手法は, 十分次元還元法の非パラメトリック一般化である。
推定された深度非パラメトリック表現は、その余剰リスクが0に収束するという意味で一貫したものであることを示す。
論文 参考訳(メタデータ) (2020-06-10T14:47:43Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - Semiparametric Nonlinear Bipartite Graph Representation Learning with
Provable Guarantees [106.91654068632882]
半パラメトリック指数族分布におけるパラメータの統計的推定問題として、両部グラフを考察し、その表現学習問題を定式化する。
提案手法は, 地中真理付近で強い凸性を示すため, 勾配降下法が線形収束率を達成できることを示す。
我々の推定器は指数族内の任意のモデル誤特定に対して頑健であり、広範な実験で検証されている。
論文 参考訳(メタデータ) (2020-03-02T16:40:36Z) - Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。
正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。
高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文 参考訳(メタデータ) (2020-02-25T23:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。