論文の概要: The Pitfalls of Simplicity Bias in Neural Networks
- arxiv url: http://arxiv.org/abs/2006.07710v2
- Date: Wed, 28 Oct 2020 09:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 20:25:25.541070
- Title: The Pitfalls of Simplicity Bias in Neural Networks
- Title(参考訳): ニューラルネットワークにおける単純性バイアスの落とし穴
- Authors: Harshay Shah, Kaustav Tamuly, Aditi Raghunathan, Prateek Jain,
Praneeth Netrapalli
- Abstract要約: Simplicity Bias (SB) は、単純なモデルを見つけるための標準的な訓練手順の傾向である。
我々は、単純さ、複数の予測特徴の正確な概念を取り入れたデータセットを提案し、実際のデータに基づいてトレーニングされたニューラルネットワークの非ロマンス性をキャプチャする。
- 参考スコア(独自算出の注目度): 39.29115335858375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several works have proposed Simplicity Bias (SB)---the tendency of standard
training procedures such as Stochastic Gradient Descent (SGD) to find simple
models---to justify why neural networks generalize well [Arpit et al. 2017,
Nakkiran et al. 2019, Soudry et al. 2018]. However, the precise notion of
simplicity remains vague. Furthermore, previous settings that use SB to
theoretically justify why neural networks generalize well do not simultaneously
capture the non-robustness of neural networks---a widely observed phenomenon in
practice [Goodfellow et al. 2014, Jo and Bengio 2017]. We attempt to reconcile
SB and the superior standard generalization of neural networks with the
non-robustness observed in practice by designing datasets that (a) incorporate
a precise notion of simplicity, (b) comprise multiple predictive features with
varying levels of simplicity, and (c) capture the non-robustness of neural
networks trained on real data. Through theory and empirics on these datasets,
we make four observations: (i) SB of SGD and variants can be extreme: neural
networks can exclusively rely on the simplest feature and remain invariant to
all predictive complex features. (ii) The extreme aspect of SB could explain
why seemingly benign distribution shifts and small adversarial perturbations
significantly degrade model performance. (iii) Contrary to conventional wisdom,
SB can also hurt generalization on the same data distribution, as SB persists
even when the simplest feature has less predictive power than the more complex
features. (iv) Common approaches to improve generalization and
robustness---ensembles and adversarial training---can fail in mitigating SB and
its pitfalls. Given the role of SB in training neural networks, we hope that
the proposed datasets and methods serve as an effective testbed to evaluate
novel algorithmic approaches aimed at avoiding the pitfalls of SB.
- Abstract(参考訳): 単純さバイアス (sb) - 確率的勾配降下 (sgd) のような、単純なモデルを見つけるための標準的なトレーニング手順の傾向 - ニューラルネットワークがうまく一般化する理由を正当化するために [arpit et al. 2017 nakkiran et al. 2019, soudry et al. 2018]。
しかし、単純さの正確な概念はいまだ曖昧である。
さらに、ニューラルネットワークが一般化する理由を理論的に正当化するためにSBを使用した以前の設定では、ニューラルネットワークの非破壊性を同時に捉えることはできない。
我々は、SBとニューラルネットワークの優れた標準一般化を、データセットを設計することで、実際に観測された非ロバスト性と整合しようとする。
a)単純さの正確な概念を取り入れる
b) 様々なレベルの単純さを持つ複数の予測的特徴から構成され、
c) 実データに基づいてトレーニングされたニューラルネットワークの非ロバスト性をキャプチャする。
これらのデータセットの理論と経験を通して、我々は4つの観察を行う。
(i)SGDのSBと変種は極端であり、ニューラルネットワークは最も単純な特徴にのみ依存し、全ての予測複雑な特徴に不変である。
(II) SBの極端な側面は, 見かけの配向変化と小対向摂動がモデル性能を著しく低下させる理由を説明できる。
三 従来の知恵とは対照的に、SBは、最も単純な特徴がより複雑な特徴よりも予測力が少ない場合でも、同じデータ分布の一般化を損なうことがある。
四 一般化と堅牢性を改善するための共通アプローチ-アンサンブルと敵の訓練--SBとその落とし穴の軽減に失敗する。
ニューラルネットワークのトレーニングにおけるSBの役割を考えると、提案されたデータセットとメソッドが、SBの落とし穴を避けることを目的とした新しいアルゴリズムアプローチを評価する効果的なテストベッドとして機能することを期待する。
関連論文リスト
- Feature Contamination: Neural Networks Learn Uncorrelated Features and Fail to Generalize [5.642322814965062]
分散シフトの下で一般化される学習表現は、堅牢な機械学習モデルを構築する上で重要である。
ニューラルネットワークを教師ネットワークから得られる表現に明示的に適合させることさえ、学生ネットワークの一般化には不十分であることを示す。
論文 参考訳(メタデータ) (2024-06-05T15:04:27Z) - Deep Neural Networks Tend To Extrapolate Predictably [51.303814412294514]
ニューラルネットワークの予測は、アウト・オブ・ディストリビューション(OOD)入力に直面した場合、予測不可能で過信される傾向がある。
我々は、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に向かう傾向があることを観察する。
我々は、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示します。
論文 参考訳(メタデータ) (2023-10-02T03:25:32Z) - Utility-Probability Duality of Neural Networks [4.871730595406078]
本稿では,ディープラーニングにおける標準教師あり学習手順に対するユーティリティに基づく代替的説明を提案する。
基本的な考え方は、学習したニューラルネットワークを確率モデルではなく、順序付きユーティリティ関数として解釈することである。
ソフトマックス出力を持つ全てのニューラルネットワークに対して、最大推定値のSGD学習ダイナミクスを反復過程と見なすことができる。
論文 参考訳(メタデータ) (2023-05-24T08:09:07Z) - Generalization and Estimation Error Bounds for Model-based Neural
Networks [78.88759757988761]
スパースリカバリのためのモデルベースネットワークの一般化能力は、通常のReLUネットワークよりも優れていることを示す。
我々は,高一般化を保証したモデルベースネットワークの構築を可能にする実用的な設計規則を導出する。
論文 参考訳(メタデータ) (2023-04-19T16:39:44Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Gated Information Bottleneck for Generalization in Sequential
Environments [13.795129636387623]
深層ニューラルネットワークは、基礎となるデータ分布がトレーニングセットのそれと異なる場合、一般化が悪く、目に見えない環境に苦しむ。
ゲート情報ボトルネック(GIB)と呼ばれるニューラルネットワークに基づく新しいISBアプローチを提案する。
我々は、敵対的ロバスト性およびアウト・オブ・ディストリビューション検出において、他の一般的なニューラルネットワークベースのIBアプローチよりもGIBの方が優れていることを実証的に示す。
論文 参考訳(メタデータ) (2021-10-12T14:58:38Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Path classification by stochastic linear recurrent neural networks [2.5499055723658097]
トレーニングや分類作業に利用されるユニークな情報として,RNNが供給される経路の部分的なシグネチャを保持することを示す。
これらのRNNは訓練が容易で堅牢であり、これらの観測を合成データと実データの両方で数値実験で裏付けるものである、と我々は主張する。
論文 参考訳(メタデータ) (2021-08-06T12:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。