Fugu-MT 論文翻訳(概要): Demystifying the Global Convergence Puzzle of Learning Over-parameterized ReLU Nets in Very High Dimensions

論文の概要: Demystifying the Global Convergence Puzzle of Learning Over-parameterized ReLU Nets in Very High Dimensions

arxiv url: http://arxiv.org/abs/2206.03254v1
Date: Sun, 5 Jun 2022 02:14:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-08 13:42:54.511449
Title: Demystifying the Global Convergence Puzzle of Learning Over-parameterized ReLU Nets in Very High Dimensions
Title（参考訳）: 超高次元の超パラメータreluネット学習による大域収束パズルの解法化
Authors: Peng He
Abstract要約: 本稿では,超次元データ学習という難解なシナリオにおいて,グローバル収束現象をデミステマイズするための厳密な理論に焦点をあてる。この説の主な要素は、それがそれがそれが事実であるということであり、それがそれが事実であるということであり、それが事実であるということであり、それがそれが事実であるということであり、それがそれがそれがそれが事実であるということであるということである、というものである。
参考スコア（独自算出の注目度）: 1.3401746329218014
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This theoretical paper is devoted to developing a rigorous theory for demystifying the global convergence phenomenon in a challenging scenario: learning over-parameterized Rectified Linear Unit (ReLU) nets for very high dimensional dataset under very mild assumptions. A major ingredient of our analysis is a fine-grained analysis of random activation matrices. The essential virtue of dissecting activation matrices is that it bridges the dynamics of optimization and angular distribution in high-dimensional data space. This angle-based detailed analysis leads to asymptotic characterizations of gradient norm and directional curvature of objective function at each gradient descent iteration, revealing that the empirical loss function enjoys nice geometrical properties in the overparameterized setting. Along the way, we significantly improve existing theoretical bounds on both over-parameterization condition and learning rate with very mild assumptions for learning very high dimensional data. Moreover, we uncover the role of the geometrical and spectral properties of the input data in determining desired over-parameterization size and global convergence rate. All these clues allow us to discover a novel geometric picture of nonconvex optimization in deep learning: angular distribution in high-dimensional data space $\mapsto$ spectrums of overparameterized activation matrices $\mapsto$ favorable geometrical properties of empirical loss landscape $\mapsto$ global convergence phenomenon. Furthremore, our theoretical results imply that gradient-based nonconvex optimization algorithms have much stronger statistical guarantees with much milder over-parameterization condition than exisiting theory states for learning very high dimensional data, which is rarely explored so far.
Abstract（参考訳）: この理論論文は,超過パラメータ整流線形単位(ReLU)ネットを極めて軽度な仮定で高次元データセットに学習するという,グローバル収束現象を決定づける厳密な理論を,困難なシナリオで開発することを目的としている。本解析の主な要素はランダム活性化行列の細粒度解析である。活性化行列を分解する本質的な利点は、高次元データ空間における最適化と角分布のダイナミクスを橋渡しすることである。この角度に基づく詳細な解析は、各勾配降下反復における勾配ノルムの漸近的特徴付けと目的関数の方向曲率をもたらし、経験的損失関数が過剰パラメータ設定において優れた幾何学的性質を享受していることを明らかにする。その過程で、超高次元データを学習するための非常に穏やかな仮定により、超パラメータ条件と学習率の両方の既存の理論境界を大幅に改善する。さらに,入力データの幾何学的およびスペクトル的特性が,所望の超パラメータサイズと大域収束率を決定する上で果たす役割を明らかにする。これらの手がかりはすべて、深層学習における非凸最適化の新たな幾何学的イメージを見つけることができる: 高次元データ空間における角分布 $\mapsto$ 過剰パラメータ化活性化行列のスペクトル $\mapsto$ 経験的損失景観の幾何学的性質 $\mapsto$ global convergence phenomena Furthreremore,我々の理論的結果は、勾配に基づく非凸最適化アルゴリズムは、非常に高次元データを学習するための理論状態よりも遥かに緩やかに過度なパラメータ化条件で、より強力な統計的保証を有することを示唆している。

関連論文リスト

Learning a Class of Mixed Linear Regressions: Global Convergence under General Data Conditions [1.9295130374196499]
線形回帰モデル(MLR)は線形回帰モデル(英語版)の混合を利用して非線形関係における理論的および実践的重要性から注目されている。このようなシステムの学習問題に多大な努力が注がれているが、既存のほとんどの調査では、厳密な独立性と同一に分散された(d.d.)あるいは分散PE条件が課されている。
論文参考訳（メタデータ） (2025-03-24T09:57:39Z)
Asymptotics of Non-Convex Generalized Linear Models in High-Dimensions: A proof of the replica formula [17.036996839737828]
非次元ガウス正規化モデルの最適性を証明するために,アルゴリズムをどのように利用できるかを示す。また, 負の正則化モデルの最適性を証明するために, テューキー損失を用いる方法を示す。
論文参考訳（メタデータ） (2025-02-27T11:29:43Z)
Gradient descent inference in empirical risk minimization [1.1510009152620668]
勾配降下法は、現代の統計学習において最も広く使われている反復アルゴリズムの1つである。本稿では,多種多様な経験的リスク最小化問題における勾配降下の精度,非漸近的特性について述べる。
論文参考訳（メタデータ） (2024-12-12T17:47:08Z)
Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。 IGDは線形収束速度で大域的に最適解を収束することを示す。
論文参考訳（メタデータ） (2024-07-03T06:10:41Z)
Curvature-Independent Last-Iterate Convergence for Games on Riemannian Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文参考訳（メタデータ） (2023-06-29T01:20:44Z)
The Inductive Bias of Flatness Regularization for Deep Matrix Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文参考訳（メタデータ） (2023-06-22T23:14:57Z)
Implicit Balancing and Regularization: Generalization and Convergence Guarantees for Overparameterized Asymmetric Matrix Sensing [28.77440901439686]
最近の一連の論文は、非ランダムな正準決定(PSD)行列センシング問題に対して、この役割を一般化し始めている。本稿では,小さなランダムな測定から得られる勾配降下の軌跡が,どちらも地球規模で良好である解へと移動することを示す。
論文参考訳（メタデータ） (2023-03-24T19:05:52Z)
Laplacian-based Cluster-Contractive t-SNE for High Dimensional Data Visualization [20.43471678277403]
本稿では t-SNE に基づく新しいグラフベース次元削減手法 LaptSNE を提案する。具体的には、LaptSNEはグラフラプラシアンの固有値情報を利用して、低次元埋め込みにおけるポテンシャルクラスタを縮小する。ラプラシアン合成目的による最適化を考える際には、より広い関心を持つであろう勾配を解析的に計算する方法を示す。
論文参考訳（メタデータ） (2022-07-25T14:10:24Z)
Understanding Implicit Regularization in Over-Parameterized Single Index Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。暗黙正則化現象の理論的保証を提供する。
論文参考訳（メタデータ） (2020-07-16T13:27:47Z)
Deep Dimension Reduction for Supervised Representation Learning [51.10448064423656]
本研究は,本質的な特徴を持つ学習表現の次元削減手法を提案する。提案手法は, 十分次元還元法の非パラメトリック一般化である。推定された深度非パラメトリック表現は、その余剰リスクが0に収束するという意味で一貫したものであることを示す。
論文参考訳（メタデータ） (2020-06-10T14:47:43Z)
The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文参考訳（メタデータ） (2020-06-08T16:43:56Z)
Semiparametric Nonlinear Bipartite Graph Representation Learning with Provable Guarantees [106.91654068632882]
半パラメトリック指数族分布におけるパラメータの統計的推定問題として、両部グラフを考察し、その表現学習問題を定式化する。提案手法は, 地中真理付近で強い凸性を示すため, 勾配降下法が線形収束率を達成できることを示す。我々の推定器は指数族内の任意のモデル誤特定に対して頑健であり、広範な実験で検証されている。
論文参考訳（メタデータ） (2020-03-02T16:40:36Z)
Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文参考訳（メタデータ） (2020-02-25T23:05:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。