論文の概要: Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks
- arxiv url: http://arxiv.org/abs/2210.01360v1
- Date: Tue, 4 Oct 2022 04:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:52:11.475223
- Title: Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks
- Title(参考訳): ニューラルネットワークにおける単純度バイアス軽減のための可逆出力マッピングの学習
- Authors: Sravanti Addepalli, Anshul Nasery, R. Venkatesh Babu, Praneeth
Netrapalli, Prateek Jain
- Abstract要約: バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
- 参考スコア(独自算出の注目度): 66.76034024335833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Networks are known to be brittle to even minor distribution
shifts compared to the training distribution. While one line of work has
demonstrated that Simplicity Bias (SB) of DNNs - bias towards learning only the
simplest features - is a key reason for this brittleness, another recent line
of work has surprisingly found that diverse/ complex features are indeed
learned by the backbone, and their brittleness is due to the linear
classification head relying primarily on the simplest features. To bridge the
gap between these two lines of work, we first hypothesize and verify that while
SB may not altogether preclude learning complex features, it amplifies simpler
features over complex ones. Namely, simple features are replicated several
times in the learned representations while complex features might not be
replicated. This phenomenon, we term Feature Replication Hypothesis, coupled
with the Implicit Bias of SGD to converge to maximum margin solutions in the
feature space, leads the models to rely mostly on the simple features for
classification. To mitigate this bias, we propose Feature Reconstruction
Regularizer (FRR) to ensure that the learned features can be reconstructed back
from the logits. The use of {\em FRR} in linear layer training (FRR-L)
encourages the use of more diverse features for classification. We further
propose to finetune the full network by freezing the weights of the linear
layer trained using FRR-L, to refine the learned features, making them more
suitable for classification. Using this simple solution, we demonstrate up to
15% gains in OOD accuracy on the recently introduced semi-synthetic datasets
with extreme distribution shifts. Moreover, we demonstrate noteworthy gains
over existing SOTA methods on the standard OOD benchmark DomainBed as well.
- Abstract(参考訳): ディープニューラルネットワークは、トレーニング分布に比べて小さな分布シフトでも脆弱であることが知られている。
1行の作業で、dnnの単純さのバイアス(sb) - 最も単純な機能のみを学ぶバイアス - が、この脆さの鍵となることが示されているが、別の最近の作業では、多様で複雑な機能はバックボーンによって実際に学習されており、その脆さは、主に単純な機能に依存する線形分類ヘッドに起因する。
これら2つの作業のギャップを埋めるために、まず、sbが複雑な機能を学ぶことを妨げるわけではないが、複雑な機能よりもシンプルな機能を増幅する、という仮説を立て、検証する。
すなわち、単純な機能は学習した表現で数回複製されるが、複雑な機能は複製されない。
この現象を特徴複製仮説(feature replication hypothesis)と呼び、sgdの暗黙のバイアスと相まって特徴空間の最大マージン解に収束し、モデルは主に分類のための単純な特徴に依存する。
このバイアスを軽減するため,我々は,学習した特徴をロジットから元に戻せるように,機能再構築調整器(frr)を提案する。
線形層トレーニング (FRR-L) における {\em FRR} の使用は、より多様な特徴を分類に利用することを促進する。
さらに,frr-lを用いてトレーニングしたリニア層の重みを凍結し,学習した特徴を洗練し,分類に適合させることにより,ネットワーク全体の細粒化を行う。
この単純な解法を用いて,最近導入された準合成データセットにおける最大15%のood精度向上を実証した。
さらに、標準的なOODベンチマークであるDomainBedでも、既存のSOTAメソッドよりも顕著な利得を示す。
関連論文リスト
- Simplicity Bias via Global Convergence of Sharpness Minimization [43.658859631741024]
ラベルノイズSGDは、2層ネットワークにおける損失ゼロのモデル多様体のシャープネスを常に最小化することを示す。
また、ゼロ損失多様体上の近似定常点における損失のヘッセンのトレースの新たな性質も見いだす。
論文 参考訳(メタデータ) (2024-10-21T18:10:37Z) - Simplicity Bias of Two-Layer Networks beyond Linearly Separable Data [4.14360329494344]
重みが小さい2層ニューラルネットワークの文脈における一般データセットの単純さバイアスを特徴付け、勾配流を訓練する。
XORのようなパターンを持つデータセットに対しては、学習した特徴を正確に識別し、後続のトレーニング段階で単純さのバイアスが強まることを示す。
これらの結果から,訓練中期に学習した特徴がOOD伝達に有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-27T16:00:45Z) - Neural Redshift: Random Networks are not Random Functions [28.357640341268745]
NNには固有の「単純さバイアス」がないことを示す。
代替アーキテクチャは、あらゆるレベルの複雑さに対してバイアスで構築することができる。
これは、トレーニングされたモデルによって実装されたソリューションを制御するための有望な道を指す。
論文 参考訳(メタデータ) (2024-03-04T17:33:20Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Federated Latent Class Regression for Hierarchical Data [5.110894308882439]
フェデレートラーニング(FL)は、多くのエージェントがローカルに保存されたデータを開示することなく、グローバル機械学習モデルのトレーニングに参加することを可能にする。
本稿では,新しい確率モデルである階層潜在クラス回帰(HLCR)を提案し,フェデレートラーニング(FEDHLCR)への拡張を提案する。
我々の推論アルゴリズムはベイズ理論から派生したもので、強い収束保証と過剰適合性を提供する。実験結果から、FEDHLCRは非IIDデータセットにおいても高速収束を提供することが示された。
論文 参考訳(メタデータ) (2022-06-22T00:33:04Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Embedding Propagation: Smoother Manifold for Few-Shot Classification [131.81692677836202]
本稿では, 組込み伝搬を非教師なし非パラメトリック正規化器として, 数ショット分類における多様体平滑化に用いることを提案する。
埋め込み伝播がより滑らかな埋め込み多様体を生み出すことを実証的に示す。
複数の半教師付き学習シナリオにおいて,埋め込み伝搬によりモデルの精度が最大16%向上することを示す。
論文 参考訳(メタデータ) (2020-03-09T13:51:09Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。