論文の概要: Neural Redshift: Random Networks are not Random Functions
- arxiv url: http://arxiv.org/abs/2403.02241v2
- Date: Tue, 5 Mar 2024 11:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:58:42.054084
- Title: Neural Redshift: Random Networks are not Random Functions
- Title(参考訳): Neural Redshift: ランダムネットワークはランダム関数ではない
- Authors: Damien Teney, Armand Nicolicioiu, Valentin Hartmann, Ehsan Abbasnejad
- Abstract要約: NNには固有の「単純さバイアス」がないことを示す。
代替アーキテクチャは、あらゆるレベルの複雑さに対してバイアスで構築することができる。
これは、トレーニングされたモデルによって実装されたソリューションを制御するための有望な道を指す。
- 参考スコア(独自算出の注目度): 28.357640341268745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our understanding of the generalization capabilities of neural networks (NNs)
is still incomplete. Prevailing explanations are based on implicit biases of
gradient descent (GD) but they cannot account for the capabilities of models
from gradient-free methods nor the simplicity bias recently observed in
untrained networks. This paper seeks other sources of generalization in NNs.
Findings. To understand the inductive biases provided by architectures
independently from GD, we examine untrained, random-weight networks. Even
simple MLPs show strong inductive biases: uniform sampling in weight space
yields a very biased distribution of functions in terms of complexity. But
unlike common wisdom, NNs do not have an inherent "simplicity bias". This
property depends on components such as ReLUs, residual connections, and layer
normalizations. Alternative architectures can be built with a bias for any
level of complexity. Transformers also inherit all these properties from their
building blocks.
Implications. We provide a fresh explanation for the success of deep learning
independent from gradient-based training. It points at promising avenues for
controlling the solutions implemented by trained models.
- Abstract(参考訳): ニューラルネットワーク(NN)の一般化能力に対する我々の理解はまだ不十分である。
一般的な説明は、勾配降下(GD)の暗黙のバイアスに基づくものであるが、勾配のない手法によるモデルの能力や、最近トレーニングされていないネットワークで観測された単純さのバイアスは考慮できない。
本稿では,nnsにおける他の一般化源を求める。
発見。
GDとは独立してアーキテクチャが提供する帰納バイアスを理解するために,未学習のランダムウェイトネットワークについて検討する。
単純な mlp でさえも強い帰納的バイアスを示しており、重み空間における一様サンプリングは、複雑性の観点から関数の非常に偏りのある分布をもたらす。
しかし、一般的な知恵とは異なり、nnは固有の「単純化バイアス」を持たない。
この性質は、ReLUs、残留接続、層正規化などのコンポーネントに依存する。
代替アーキテクチャは、あらゆるレベルの複雑さに対してバイアスで構築することができる。
トランスフォーマーはこれらすべてのプロパティをビルディングブロックから継承する。
意味。
グラデーションベーストレーニングによらず,深層学習の成功の新たな説明を提供する。
トレーニングされたモデルによって実装されたソリューションを制御するための、有望な道を示している。
関連論文リスト
- Hierarchical Simplicity Bias of Neural Networks [0.0]
非平衡ラベル結合と呼ばれる新しい手法を導入し、この単純さのバイアスを階層的なレベルにわたって探索し、拡張する。
提案手法は,トレーニングセット内のラベルとの相関に基づいて,複雑性を増大させる特徴を逐次考慮していることを示す。
論文 参考訳(メタデータ) (2023-11-05T11:27:03Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文 参考訳(メタデータ) (2022-10-04T04:01:15Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。