論文の概要: Neural Networks Learn Statistics of Increasing Complexity
- arxiv url: http://arxiv.org/abs/2402.04362v3
- Date: Wed, 09 Oct 2024 06:43:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:24.826124
- Title: Neural Networks Learn Statistics of Increasing Complexity
- Title(参考訳): ニューラルネットワークは複雑度の増加統計を学習する
- Authors: Nora Belrose, Quintin Pope, Lucia Quirke, Alex Mallen, Xiaoli Fern,
- Abstract要約: 分散単純バイアス(DSB)は、ニューラルネットワークがまずデータ分散の低次モーメントを学習する、という仮説である。
ネットワークは、トレーニングの初期段階のトレーニングセットと低次の統計値が一致した最大エントロピー分布で自動的によく学習され、その後にその能力を失うことを示す。
我々は, あるクラスの低次統計データを外科的に編集し, 早期学習ネットワークが, 対象クラスから抽出したもののように, 編集標本を処理していることを示すために, 最適な輸送手法を用いた。
- 参考スコア(独自算出の注目度): 2.1004767452202637
- License:
- Abstract: The distributional simplicity bias (DSB) posits that neural networks learn low-order moments of the data distribution first, before moving on to higher-order correlations. In this work, we present compelling new evidence for the DSB by showing that networks automatically learn to perform well on maximum-entropy distributions whose low-order statistics match those of the training set early in training, then lose this ability later. We also extend the DSB to discrete domains by proving an equivalence between token $n$-gram frequencies and the moments of embedding vectors, and by finding empirical evidence for the bias in LLMs. Finally we use optimal transport methods to surgically edit the low-order statistics of one class to match those of another, and show that early-training networks treat the edited samples as if they were drawn from the target class. Code is available at https://github.com/EleutherAI/features-across-time.
- Abstract(参考訳): 分布の単純さバイアス(DSB)は、ニューラルネットワークがまずデータ分散の低次モーメントを学習し、次に高次相関に移行することを仮定する。
本研究は,低次統計値がトレーニング開始直後のトレーニングセットと一致した最大エントロピー分布において,ネットワークが自動的に良好に学習し,その後にその能力を失うことを示すことによって,DSBに対する説得力のある新たな証拠を示す。
また、トークン$n$-gramの周波数と埋め込みベクトルのモーメントの等価性を証明し、LLMのバイアスに関する経験的証拠を見出すことにより、DSBを離散領域に拡張する。
最後に, あるクラスの低次統計を外科的に編集し, 早期学習ネットワークが, 対象のクラスから抽出したもののように, 編集したサンプルを処理していることを示す。
コードはhttps://github.com/EleutherAI/features-across-timeで入手できる。
関連論文リスト
- Benign Overfitting and Grokking in ReLU Networks for XOR Cluster Data [42.870635753205185]
勾配降下(GD)によって訓練されたニューラルネットワークは、多くの驚くべき一般化挙動を示した。
これらの現象は、XORクラスタデータ上でGDによって訓練された2層ReLUネットワークにおいて、良好に発生することを示す。
後続のトレーニングステップでは、ネットワークはトレーニングデータにランダムラベルをいまだに適合させながら、ほぼ最適のテスト精度を達成し、"グロッキング"現象を示す。
論文 参考訳(メタデータ) (2023-10-04T02:50:34Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文 参考訳(メタデータ) (2022-10-04T04:01:15Z) - Analytic Learning of Convolutional Neural Network For Pattern
Recognition [20.916630175697065]
バックプロパゲーション(BP)を用いた学習畳み込みニューラルネットワーク(CNN)は、時間とリソースを消費する。
解析的畳み込みニューラルネットワーク学習(ACnnL)を提案する。
ACnnLは、その類似した閉形式解を構築するが、正規化の制約が異なる。
論文 参考訳(メタデータ) (2022-02-14T06:32:21Z) - On the Implicit Bias of Gradient Descent for Temporal Extrapolation [32.93066466540839]
リカレントニューラルネットワーク(RNN)を使用する一般的なプラクティスは、トレーニングで見られるものよりも長いシーケンスにモデルを適用することだ。
無限のトレーニングデータであっても、完全に補間するRNNモデルが存在することを示す。
次に、勾配降下をトレーニングに用いた場合、学習は完全な外挿に収束することを示す。
論文 参考訳(メタデータ) (2022-02-09T06:28:37Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - The Lottery Ticket Hypothesis for Pre-trained BERT Networks [137.99328302234338]
自然言語処理(NLP)では、BERTのような巨大な事前学習モデルがトレーニングの標準出発点となっている。
並行して、抽選券仮説の研究により、NLPとコンピュータビジョンのモデルには、完全精度で個別にトレーニングできる小さなマッチングワークが含まれていることが示されている。
これらの観測と組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なトランスファーブルワークが存在するかどうかを評価する。
論文 参考訳(メタデータ) (2020-07-23T19:35:39Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。