Fugu-MT 論文翻訳(概要): The Low-Rank Simplicity Bias in Deep Networks

論文の概要: The Low-Rank Simplicity Bias in Deep Networks

arxiv url: http://arxiv.org/abs/2103.10427v4
Date: Thu, 23 Mar 2023 14:21:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 20:02:50.545650
Title: The Low-Rank Simplicity Bias in Deep Networks
Title（参考訳）: ディープネットワークにおける低位単純バイアス
Authors: Minyoung Huh, Hossein Mobahi, Richard Zhang, Brian Cheung, Pulkit Agrawal, Phillip Isola
Abstract要約: 我々は、ディープネットワークが帰納的にバイアスを受けているという仮説を調査し、拡張する実験的な観察を行い、低い有効ランク埋め込みの解を見つける。我々の主張は、実践的な学習パラダイム上の有限幅線形および非線形モデルに真であることを示すとともに、自然データ上では、これらがよく一般化される解であることを示す。
参考スコア（独自算出の注目度）: 46.79964271742486
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Modern deep neural networks are highly over-parameterized compared to the data on which they are trained, yet they often generalize remarkably well. A flurry of recent work has asked: why do deep networks not overfit to their training data? In this work, we make a series of empirical observations that investigate and extend the hypothesis that deeper networks are inductively biased to find solutions with lower effective rank embeddings. We conjecture that this bias exists because the volume of functions that maps to low effective rank embedding increases with depth. We show empirically that our claim holds true on finite width linear and non-linear models on practical learning paradigms and show that on natural data, these are often the solutions that generalize well. We then show that the simplicity bias exists at both initialization and after training and is resilient to hyper-parameters and learning methods. We further demonstrate how linear over-parameterization of deep non-linear models can be used to induce low-rank bias, improving generalization performance on CIFAR and ImageNet without changing the modeling capacity.
Abstract（参考訳）: 現代のディープニューラルネットワークは、トレーニングされているデータと比較して非常に過度にパラメータ化されている。なぜディープネットワークはトレーニングデータに過度に適合しないのか? 本研究では,より深いネットワークが帰納的バイアスを負い,より効果的なランク埋め込みを持つ解を見出すという仮説を検証・拡張する経験的観測を行った。このバイアスは、低有効ランク埋め込みに写像する関数の体積が深さとともに増加するために存在すると推測する。実践的学習パラダイムにおいて,有限幅線形および非線形モデルにおいて,我々の主張が真であることを実証的に示し,自然データにおいては,これらがよく一般化する解であることを示す。次に,初期化とトレーニング後の両方において単純さのバイアスが存在し,ハイパーパラメータや学習方法に弾力性があることを示す。さらに,深部非線形モデルの線形過パラメータ化を低ランクバイアスの誘発に応用し,モデリング能力を変化させることなくcifarおよびimagenetの一般化性能を向上させることを実証する。

関連論文リスト

The Universality Lens: Why Even Highly Over-Parametrized Models Learn Well [4.2466572124752995]
拡張仮説クラスに先立って,ログロスと(ほとんど)均一なベイズ混合について検討する。主要な結果は、学習者の後悔は仮説クラス全体のサイズによって決定されないことを示している。結果は、オンライン、バッチ、教師付き学習設定で広く適用されます。
論文参考訳（メタデータ） (2025-06-09T11:32:31Z)
More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory [12.689249854199982]
RF劣化試験のリスクは特徴数とサンプル数の両方で単調に低下することを示した。次に、パワーロー固有構造を特徴とするタスクの大規模なクラスにおいて、ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられていることを示す。
論文参考訳（メタデータ） (2023-11-24T18:27:41Z)
Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文参考訳（メタデータ） (2023-10-17T09:22:22Z)
Neural networks trained with SGD learn distributions of increasing complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。その後、トレーニング中にのみ高次の統計を利用する。本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文参考訳（メタデータ） (2022-11-21T15:27:22Z)
Learning Low Dimensional State Spaces with Overparameterized Recurrent Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2022-10-25T14:45:15Z)
Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文参考訳（メタデータ） (2022-10-13T15:09:54Z)
Plateau in Monotonic Linear Interpolation -- A "Biased" View of Loss Landscape for Deep Networks [18.71055320062469]
モノトニックリニア(英: Monotonic linear、MLI)は、ニューラルネットワークのトレーニングでよく見られる現象である。 MLI特性は最適化問題の硬さと必ずしも関係がないことを示す。特に、重みと偏りを線形に補間することは、最終的な出力に非常に異なる影響をもたらすことを示す。
論文参考訳（メタデータ） (2022-10-03T15:33:29Z)
Overparameterized ReLU Neural Networks Learn the Simplest Models: Neural Isometry and Exact Recovery [33.74925020397343]
ディープラーニングは、学習パラメータが極端に多い場合でも、ニューラルネットワークが驚くほどよく一般化されていることを示している。標準重崩壊正則化をもつ2層ReLUネットワークのトレーニングと一般化特性について考察する。我々は,ラベルがうるさい場合でも,ReLUネットワークは単純でスパースなモデルを学ぶことを示す。
論文参考訳（メタデータ） (2022-09-30T06:47:15Z)
Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文参考訳（メタデータ） (2021-06-07T10:18:54Z)
Evading the Simplicity Bias: Training a Diverse Set of Models Discovers Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文参考訳（メタデータ） (2021-05-12T12:12:24Z)
Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit Bias towards Low Rank [1.9350867959464846]
ディープラーニングでは、勾配発散は、よく一般化する解を好む傾向にある。本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
論文参考訳（メタデータ） (2020-11-27T15:08:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。