論文の概要: The Low-Rank Simplicity Bias in Deep Networks
- arxiv url: http://arxiv.org/abs/2103.10427v1
- Date: Thu, 18 Mar 2021 17:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 14:07:59.617827
- Title: The Low-Rank Simplicity Bias in Deep Networks
- Title(参考訳): ディープネットワークにおける低位単純バイアス
- Authors: Minyoung Huh, Hossein Mobahi, Richard Zhang, Brian Cheung, Pulkit
Agrawal, Phillip Isola
- Abstract要約: 現代のディープニューラルネットワークは、トレーニングされたデータに比べて高度に過大化されているが、非常によく一般化されている。
我々は,より深いネットが暗黙的にバイアスをかけられ,より低いランクの解が見つかるという仮説と,それらを一般化する解であるとする。
- 参考スコア(独自算出の注目度): 48.523886683985936
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern deep neural networks are highly over-parameterized compared to the
data on which they are trained, yet they often generalize remarkably well. A
flurry of recent work has asked: why do deep networks not overfit to their
training data? We investigate the hypothesis that deeper nets are implicitly
biased to find lower rank solutions and that these are the solutions that
generalize well. We prove for the asymptotic case that the percent volume of
low effective-rank solutions increases monotonically as linear neural networks
are made deeper. We then show empirically that our claim holds true on finite
width models. We further empirically find that a similar result holds for
non-linear networks: deeper non-linear networks learn a feature space whose
kernel has a lower rank. We further demonstrate how linear
over-parameterization of deep non-linear models can be used to induce low-rank
bias, improving generalization performance without changing the effective model
capacity. We evaluate on various model architectures and demonstrate that
linearly over-parameterized models outperform existing baselines on image
classification tasks, including ImageNet.
- Abstract(参考訳): 現代のディープニューラルネットワークは、トレーニングされているデータと比較して非常に過度にパラメータ化されている。
なぜディープネットワークはトレーニングデータに過度に適合しないのか?
我々は,より深いネットが暗黙的にバイアスをかけられ,より低いランクの解が見つかるという仮説と,それらを一般化する解であるとする。
本稿では, 線形ニューラルネットワークの深部化に伴い, 低効率な解の体積が単調に増加することを証明する。
次に、我々の主張が有限幅モデルに真であることを示す。
より深い非線形ネットワークは、カーネルが低い階数を持つ特徴空間を学ぶ。
さらに, 深部非線形モデルの線形過パラメータ化を低ランクバイアスの誘発に応用し, 有効モデルの容量を変えることなく一般化性能を向上させることを実証する。
様々なモデルアーキテクチャについて評価し、imagenetを含む画像分類タスクにおいて、線形オーバーパラメータモデルが既存のベースラインよりも優れていることを実証する。
関連論文リスト
- More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory [12.689249854199982]
RF劣化試験のリスクは特徴数とサンプル数の両方で単調に低下することを示した。
次に、パワーロー固有構造を特徴とするタスクの大規模なクラスにおいて、ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられていることを示す。
論文 参考訳(メタデータ) (2023-11-24T18:27:41Z) - Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free
Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。
オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。
我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-10-17T09:22:22Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Plateau in Monotonic Linear Interpolation -- A "Biased" View of Loss
Landscape for Deep Networks [18.71055320062469]
モノトニックリニア(英: Monotonic linear、MLI)は、ニューラルネットワークのトレーニングでよく見られる現象である。
MLI特性は最適化問題の硬さと必ずしも関係がないことを示す。
特に、重みと偏りを線形に補間することは、最終的な出力に非常に異なる影響をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-03T15:33:29Z) - Overparameterized ReLU Neural Networks Learn the Simplest Models: Neural
Isometry and Exact Recovery [33.74925020397343]
ディープラーニングは、学習パラメータが極端に多い場合でも、ニューラルネットワークが驚くほどよく一般化されていることを示している。
標準重崩壊正則化をもつ2層ReLUネットワークのトレーニングと一般化特性について考察する。
我々は,ラベルがうるさい場合でも,ReLUネットワークは単純でスパースなモデルを学ぶことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:47:15Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit
Bias towards Low Rank [1.9350867959464846]
ディープラーニングでは、勾配発散は、よく一般化する解を好む傾向にある。
本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
論文 参考訳(メタデータ) (2020-11-27T15:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。