論文の概要: Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks
- arxiv url: http://arxiv.org/abs/2410.10322v2
- Date: Sat, 01 Mar 2025 04:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:12:08.822649
- Title: Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks
- Title(参考訳): 特徴平均化:ニューラルネットワークの非破壊性に起因したグラディエント・ディフレッシュの暗黙のバイアス
- Authors: Binghui Li, Zhixuan Pan, Kaifeng Lyu, Jian Li,
- Abstract要約: 勾配降下によって訓練されたニューラルネットワークは、分類に平均的な特徴に依存する傾向があることを示す。
勾配降下は、各隠れニューロンの重みがクラスター中心の平均を表す特徴平均化に偏りがあることを証明した。
我々は,2層ReLUネットワークが個々の特徴を分類する訓練を行う際に,最適なロバスト性を実現することを証明した。
- 参考スコア(独自算出の注目度): 13.983863226803336
- License:
- Abstract: In this work, we investigate a particular implicit bias in gradient descent training, which we term "Feature Averaging," and argue that it is one of the principal factors contributing to the non-robustness of deep neural networks. We show that, even when multiple discriminative features are present in the input data, neural networks trained by gradient descent tend to rely on an average (or a certain combination) of these features for classification, rather than distinguishing and leveraging each feature individually. Specifically, we provide a detailed theoretical analysis of the training dynamics of two-layer ReLU networks on a binary classification task, where the data distribution consists of multiple clusters with mutually orthogonal centers. We rigorously prove that gradient descent biases the network towards feature averaging, where the weights of each hidden neuron represent an average of the cluster centers (each corresponding to a distinct feature), thereby making the network vulnerable to input perturbations aligned with the negative direction of the averaged features. On the positive side, we demonstrate that this vulnerability can be mitigated through more granular supervision. In particular, we prove that a two-layer ReLU network can achieve optimal robustness when trained to classify individual features rather than merely the original binary classes. Finally, we validate our theoretical findings with experiments on synthetic datasets, MNIST, and CIFAR-10, and confirm the prevalence of feature averaging and its impact on adversarial robustness. We hope these theoretical and empirical insights deepen the understanding of how gradient descent shapes feature learning and adversarial robustness, and how more detailed supervision can enhance robustness.
- Abstract(参考訳): 本研究では、勾配降下訓練における特に暗黙のバイアスについて検討し、これを「機能平均化(Feature Averaging)」と呼び、深層ニューラルネットワークの非破壊性に寄与する主要な要因の1つとして論じる。
入力データに複数の識別的特徴が存在するとしても、勾配降下によって訓練されたニューラルネットワークは、各特徴を個別に区別・活用するのではなく、これらの特徴の平均(または特定の組み合わせ)に依存する傾向にある。
具体的には、データ分布が相互直交中心を持つ複数のクラスタで構成される二層分類タスクにおける2層ReLUネットワークのトレーニング力学の詳細な理論的解析を行う。
我々は,各隠れニューロンの重みがクラスタセンターの平均値(それぞれ異なる特徴に対応する)を表す特徴平均化に対して,勾配勾配がネットワークに偏りがあることを厳密に証明し,平均的特徴の負の方向に沿った入力摂動に弱いネットワークを実現する。
肯定的な面では、この脆弱性はよりきめ細かい監視によって緩和できることを示す。
特に,2層ReLUネットワークは,本来のバイナリクラスではなく,個々の特徴を分類する訓練を行えば,最適なロバスト性が得られることを示す。
最後に, 合成データセット, MNIST および CIFAR-10 に関する実験により理論的知見を検証し, 特徴量平均化の頻度と, その対向的堅牢性への影響を検証した。
これらの理論的および実証的な洞察は、勾配降下が学習と対角的堅牢性をどのように形作るか、そしてより詳細な監督が堅牢性を高めるかを理解することを願っている。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Understanding Deep Representation Learning via Layerwise Feature
Compression and Discrimination [33.273226655730326]
深層線形ネットワークの各層は、幾何速度でクラス内特徴を徐々に圧縮し、線形速度でクラス間特徴を識別することを示す。
これは、ディープ線形ネットワークの階層的表現における特徴進化の最初の定量的評価である。
論文 参考訳(メタデータ) (2023-11-06T09:00:38Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Discriminability-enforcing loss to improve representation learning [20.4701676109641]
我々は、個々の高次特徴のエントロピーを最小化するために、ジニ不純物にインスパイアされた新しい損失項を導入する。
我々のGini損失は高い差別的特徴をもたらすが、高レベルの特徴の分布がクラスの分布と一致していることを保証するものではない。
実験結果から,新たな損失項をトレーニング目標に組み込むことで,クロスエントロピー単独でトレーニングしたモデルよりも一貫して優れた結果が得られた。
論文 参考訳(メタデータ) (2022-02-14T22:31:37Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - Intraclass clustering: an implicit learning ability that regularizes
DNNs [22.732204569029648]
ディープニューラルネットワークは,クラス間で有意義なクラスタを抽出する能力によって正規化されることを示す。
クラス内クラスタリングの尺度は、トレーニングデータのニューロンおよび層レベルの表現に基づいて設計される。
論文 参考訳(メタデータ) (2021-03-11T15:26:27Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。