論文の概要: ReLU Neural Networks Learn the Simplest Models: Neural Isometry and
Exact Recovery
- arxiv url: http://arxiv.org/abs/2209.15265v1
- Date: Fri, 30 Sep 2022 06:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:14:48.730563
- Title: ReLU Neural Networks Learn the Simplest Models: Neural Isometry and
Exact Recovery
- Title(参考訳): ReLUニューラルネットワークは最も単純なモデルを学ぶ:ニューラルアイソメトリーとエクササイズリカバリ
- Authors: Yifei Wang, Yixuan Hua, Emmanuel Cand\'es, Mert Pilanci
- Abstract要約: ディープラーニングは、学習パラメータが極端に多い場合でも、ニューラルネットワークが驚くほどよく一般化されていることを示している。
標準重崩壊正則化をもつ2層ReLUネットワークのトレーニングと一般化特性について考察する。
我々は,ラベルがうるさい場合でも,ReLUネットワークは単純でスパースなモデルを学ぶことを示す。
- 参考スコア(独自算出の注目度): 33.74925020397343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The practice of deep learning has shown that neural networks generalize
remarkably well even with an extreme number of learned parameters. This appears
to contradict traditional statistical wisdom, in which a trade-off between
model complexity and fit to the data is essential. We set out to resolve this
discrepancy from a convex optimization and sparse recovery perspective. We
consider the training and generalization properties of two-layer ReLU networks
with standard weight decay regularization. Under certain regularity assumptions
on the data, we show that ReLU networks with an arbitrary number of parameters
learn only simple models that explain the data. This is analogous to the
recovery of the sparsest linear model in compressed sensing. For ReLU networks
and their variants with skip connections or normalization layers, we present
isometry conditions that ensure the exact recovery of planted neurons. For
randomly generated data, we show the existence of a phase transition in
recovering planted neural network models. The situation is simple: whenever the
ratio between the number of samples and the dimension exceeds a numerical
threshold, the recovery succeeds with high probability; otherwise, it fails
with high probability. Surprisingly, ReLU networks learn simple and sparse
models even when the labels are noisy. The phase transition phenomenon is
confirmed through numerical experiments.
- Abstract(参考訳): ディープラーニングの実践は、極端な数の学習パラメータでもニューラルネットワークが著しく一般化することを示している。
これは、モデルの複雑さとデータへの適合のトレードオフが不可欠である従来の統計知識と矛盾しているように見える。
この不一致を凸最適化とスパースリカバリの観点から解決しようとした。
標準重崩壊正則化をもつ2層ReLUネットワークのトレーニングと一般化特性について考察する。
データ上の一定の規則性仮定の下で、任意の数のパラメータを持つReLUネットワークが、データを説明する単純なモデルのみを学ぶことを示す。
これは圧縮センシングにおける最遠線形モデルの回復に類似している。
ReLUネットワークと、スキップ接続や正規化層を持つ変種に対しては、植えられたニューロンの正確な回復を保証する等尺条件を示す。
ランダムに生成したデータに対して,ニューラルネットワークモデルの回復における相転移の存在を示す。
サンプル数と次元の比率が数値しきい値を超えると、回復は高い確率で成功し、そうでない場合は高い確率で失敗する。
驚いたことに、ReLUネットワークはラベルがうるさい場合でもシンプルでスパースなモデルを学ぶ。
相転移現象は数値実験により確認される。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - More is Less: Inducing Sparsity via Overparameterization [2.885175627590247]
ディープラーニングでは、ニューラルネットワークを過度にパラメータ化する、すなわち、トレーニングサンプルよりも多くのパラメータを使用することが一般的である。
驚くほど驚くべきことに、(確率的な)勾配勾配によるニューラルネットワークを一般化すると、それは非常にうまく行く。
我々の証明は、流れのあるブレグマンの発散を分析することに依存している。
論文 参考訳(メタデータ) (2021-12-21T07:55:55Z) - Robust Generalization of Quadratic Neural Networks via Function
Identification [19.87036824512198]
一般化は、テスト分布がトレーニング分布に近いと仮定することが多い。
2次ニューラルネットワークでは、パラメータを特定できないにもかかわらず、モデルで表される関数を識別できることが示される。
論文 参考訳(メタデータ) (2021-09-22T18:02:00Z) - Slope and generalization properties of neural networks [0.0]
十分に訓練されたニューラルネットワーク分類器の勾配分布は、一般に、完全に接続されたネットワークの層幅から独立していることを示す。
傾斜は、関連する体積を通して類似した大きさであり、滑らかに変化する。また、再スケーリングの例でも予測されるように振る舞う。
本稿では、損失関数の一部として利用したり、ネットワークトレーニング中に基準を終了させたり、複雑度の観点からデータセットをランク付けしたりといった、斜面概念の応用の可能性について論じる。
論文 参考訳(メタデータ) (2021-07-03T17:54:27Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - System Identification Through Lipschitz Regularized Deep Neural Networks [0.4297070083645048]
ニューラルネットワークを使って、データから支配方程式を学習します。
我々は、観測されたタイムスタンプデータから直接、ODEs $dotx(t) = f(t, x(t))$の右辺を再構築する。
論文 参考訳(メタデータ) (2020-09-07T17:52:51Z) - Neural Networks and Polynomial Regression. Demystifying the
Overparametrization Phenomena [17.205106391379026]
ニューラルネットワークモデルでは、過度パラメトリゼーション(overparametrization)は、これらのモデルが見えないデータに対してうまく一般化しているように見える現象を指す。
この現象の従来の説明は、データのトレーニングに使用されるアルゴリズムの自己正規化特性に基づいている。
教師ネットワークが生成したデータを補間する学生ネットワークは,少なくともデータ次元によって制御される明示的な量である場合,よく一般化することを示す。
論文 参考訳(メタデータ) (2020-03-23T20:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。