論文の概要: Simplicity Bias in 1-Hidden Layer Neural Networks
- arxiv url: http://arxiv.org/abs/2302.00457v1
- Date: Wed, 1 Feb 2023 14:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 12:58:31.858581
- Title: Simplicity Bias in 1-Hidden Layer Neural Networks
- Title(参考訳): 1重層ニューラルネットワークにおける単純性バイアス
- Authors: Depen Morwani, Jatin Batra, Prateek Jain, Praneeth Netrapalli
- Abstract要約: 最近の研究では、ニューラルネットワークが極端に単純バイアス(SB)を示すことが示されている。
我々は、SBを入力の低次元射影の関数であるネットワークとして定義する。
我々は、ImagenetteやWaterbirds-Landbirdsのような実際のデータセットで訓練されたモデルが、実際に入力の低次元投影に依存していることを示す。
- 参考スコア(独自算出の注目度): 28.755809186616702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have demonstrated that neural networks exhibit extreme
simplicity bias(SB). That is, they learn only the simplest features to solve a
task at hand, even in the presence of other, more robust but more complex
features. Due to the lack of a general and rigorous definition of features,
these works showcase SB on semi-synthetic datasets such as Color-MNIST,
MNIST-CIFAR where defining features is relatively easier.
In this work, we rigorously define as well as thoroughly establish SB for one
hidden layer neural networks. More concretely, (i) we define SB as the network
essentially being a function of a low dimensional projection of the inputs (ii)
theoretically, we show that when the data is linearly separable, the network
primarily depends on only the linearly separable ($1$-dimensional) subspace
even in the presence of an arbitrarily large number of other, more complex
features which could have led to a significantly more robust classifier, (iii)
empirically, we show that models trained on real datasets such as Imagenette
and Waterbirds-Landbirds indeed depend on a low dimensional projection of the
inputs, thereby demonstrating SB on these datasets, iv) finally, we present a
natural ensemble approach that encourages diversity in models by training
successive models on features not used by earlier models, and demonstrate that
it yields models that are significantly more robust to Gaussian noise.
- Abstract(参考訳): 近年の研究では、ニューラルネットワークが極端に単純バイアス(SB)を示すことが示されている。
つまり、他のより堅牢だがより複雑な機能があっても、手元にあるタスクを解決するのに最も簡単な機能しか学ばないということです。
汎用的で厳密な特徴定義が欠如しているため、これらの研究は、機能定義が比較的容易なColor-MNIST、MNIST-CIFARといった半合成データセット上でSBを示す。
本研究では,1つの隠蔽層ニューラルネットワークに対して,SBを徹底的に確立すると同時に,厳密に定義する。
もっと具体的に
i) 入力の低次元射影の関数であるネットワークとしてSBを定義する。
(ii)理論的には、データが線形に分離可能である場合、ネットワークは、任意に多数存在する他のより複雑な特徴の存在下でも、線形に分離可能な($$-dimensional)部分空間のみに依存する。
(iii)imagenetteやwaterbirds-landbirdsのような実データセットでトレーニングされたモデルが入力の低次元投影に依存していることを実証的に示す。
iv) 最終的に,従来のモデルでは使用されなかった特徴について連続したモデルを訓練することにより,モデルの多様性を促進する自然なアンサンブル手法を提案する。
関連論文リスト
- SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes [61.110517195874074]
本稿では,ニューラルネットワークの出力として,複雑な接続性を持つ多様体多角形メッシュを直接生成する手法を提案する。
私たちの重要なイノベーションは、各メッシュで連続的な遅延接続空間を定義することです。
アプリケーションでは、このアプローチは生成モデルから高品質な出力を得るだけでなく、メッシュ修復のような挑戦的な幾何処理タスクを直接学習することを可能にする。
論文 参考訳(メタデータ) (2024-09-30T17:59:03Z) - Simplicity Bias of Two-Layer Networks beyond Linearly Separable Data [4.14360329494344]
重みが小さい2層ニューラルネットワークの文脈における一般データセットの単純さバイアスを特徴付け、勾配流を訓練する。
XORのようなパターンを持つデータセットに対しては、学習した特徴を正確に識別し、後続のトレーニング段階で単純さのバイアスが強まることを示す。
これらの結果から,訓練中期に学習した特徴がOOD伝達に有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-27T16:00:45Z) - The Contextual Lasso: Sparse Linear Models via Deep Neural Networks [5.607237982617641]
本研究では,空間的特徴の関数として空間的パターンと係数が変化するような説明的特徴に疎線形モデルに適合する新しい統計的推定器を開発する。
実データと合成データに関する広範な実験は、学習されたモデルは、非常に透明であり、通常のラッソよりもスペーサーであることを示している。
論文 参考訳(メタデータ) (2023-02-02T05:00:29Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文 参考訳(メタデータ) (2022-10-04T04:01:15Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Linear Iterative Feature Embedding: An Ensemble Framework for
Interpretable Model [6.383006473302968]
線形反復特徴埋め込み(LIFE)と呼ばれる解釈可能なモデルのための新しいアンサンブルフレームワークを開発した。
LIFEは、広い一層ニューラルネットワーク(NN)を正確に3つのステップに適合させることができる。
LIFEは直接訓練された単層NNを一貫して上回り、また他の多くのベンチマークモデルより上です。
論文 参考訳(メタデータ) (2021-03-18T02:01:17Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Learning Bijective Feature Maps for Linear ICA [73.85904548374575]
画像データに適した既存の確率的深層生成モデル (DGM) は, 非線形ICAタスクでは不十分であることを示す。
そこで本研究では,2次元特徴写像と線形ICAモデルを組み合わせることで,高次元データに対する解釈可能な潜在構造を学習するDGMを提案する。
画像上のフローベースモデルや線形ICA、変分オートエンコーダよりも、高速に収束し、訓練が容易なモデルを作成し、教師なしの潜在因子発見を実現する。
論文 参考訳(メタデータ) (2020-02-18T17:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。