論文の概要: Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks
- arxiv url: http://arxiv.org/abs/2410.10322v1
- Date: Mon, 14 Oct 2024 09:28:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 22:24:32.207130
- Title: Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks
- Title(参考訳): 特徴平均化:ニューラルネットワークの非破壊性に起因したグラディエント・ディフレッシュの暗黙のバイアス
- Authors: Binghui Li, Zhixuan Pan, Kaifeng Lyu, Jian Li,
- Abstract要約: 我々は「機能平均化」がディープニューラルネットワークの非ロバスト性に寄与する主要な要因の1つであると論じる。
二層分類タスクのための2層ReLUネットワークにおいて、勾配降下のトレーニング力学を詳細に理論的に解析する。
よりきめ細かい教師付き情報を提供することで、2層多層ニューラルネットワークが個々の特徴を学習できることを実証する。
- 参考スコア(独自算出の注目度): 13.983863226803336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate a particular implicit bias in the gradient descent training process, which we term "Feature Averaging", and argue that it is one of the principal factors contributing to non-robustness of deep neural networks. Despite the existence of multiple discriminative features capable of classifying data, neural networks trained by gradient descent exhibit a tendency to learn the average (or certain combination) of these features, rather than distinguishing and leveraging each feature individually. In particular, we provide a detailed theoretical analysis of the training dynamics of gradient descent in a two-layer ReLU network for a binary classification task, where the data distribution consists of multiple clusters with orthogonal cluster center vectors. We rigorously prove that gradient descent converges to the regime of feature averaging, wherein the weights associated with each hidden-layer neuron represent an average of the cluster centers (each center corresponding to a distinct feature). It leads the network classifier to be non-robust due to an attack that aligns with the negative direction of the averaged features. Furthermore, we prove that, with the provision of more granular supervised information, a two-layer multi-class neural network is capable of learning individual features, from which one can derive a binary classifier with the optimal robustness under our setting. Besides, we also conduct extensive experiments using synthetic datasets, MNIST and CIFAR-10 to substantiate the phenomenon of feature averaging and its role in adversarial robustness of neural networks. We hope the theoretical and empirical insights can provide a deeper understanding of the impact of the gradient descent training on feature learning process, which in turn influences the robustness of the network, and how more detailed supervision may enhance model robustness.
- Abstract(参考訳): 本研究では、勾配降下訓練プロセスにおける特定の暗黙バイアスについて検討し、これを「機能平均化(Feature Averaging)」と呼び、ディープニューラルネットワークの非破壊性に寄与する主要な要因の1つとして論じる。
データを分類できる複数の識別的特徴があるにもかかわらず、勾配降下によって訓練されたニューラルネットワークは、それぞれの特徴を個別に区別し活用するのではなく、これらの特徴の平均(または特定の組み合わせ)を学ぶ傾向がある。
特に,データ分布は直交クラスタ中心ベクトルを持つ複数のクラスタから構成される2層ReLUネットワークにおいて,勾配降下のトレーニング力学の詳細な理論的解析を行う。
我々は,各隠れ層ニューロンに付随する重みがクラスター中心の平均(各中心が特徴に対応する)を表す特徴平均値に勾配勾配が収束することを厳密に証明した。
ネットワーク分類器は、平均的な特徴の負の方向と一致する攻撃のため、非破壊的になる。
さらに、よりきめ細かい教師付き情報を提供することで、2層ニューラルネットワークが個々の特徴を学習でき、そこから最適なロバスト性を持つバイナリ分類器を導出できることを示す。
さらに,合成データセットであるMNISTとCIFAR-10を用いて,特徴平均化現象と,ニューラルネットワークの対向的堅牢性におけるその役割を実証する広範囲な実験を行った。
理論的および実証的な洞察は、勾配降下訓練が特徴学習プロセスに与える影響をより深く理解し、それによってネットワークの堅牢性に影響を及ぼし、より詳細な監視がモデルの堅牢性を高めることを期待する。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Understanding Deep Representation Learning via Layerwise Feature
Compression and Discrimination [33.273226655730326]
深層線形ネットワークの各層は、幾何速度でクラス内特徴を徐々に圧縮し、線形速度でクラス間特徴を識別することを示す。
これは、ディープ線形ネットワークの階層的表現における特徴進化の最初の定量的評価である。
論文 参考訳(メタデータ) (2023-11-06T09:00:38Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Discriminability-enforcing loss to improve representation learning [20.4701676109641]
我々は、個々の高次特徴のエントロピーを最小化するために、ジニ不純物にインスパイアされた新しい損失項を導入する。
我々のGini損失は高い差別的特徴をもたらすが、高レベルの特徴の分布がクラスの分布と一致していることを保証するものではない。
実験結果から,新たな損失項をトレーニング目標に組み込むことで,クロスエントロピー単独でトレーニングしたモデルよりも一貫して優れた結果が得られた。
論文 参考訳(メタデータ) (2022-02-14T22:31:37Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - Intraclass clustering: an implicit learning ability that regularizes
DNNs [22.732204569029648]
ディープニューラルネットワークは,クラス間で有意義なクラスタを抽出する能力によって正規化されることを示す。
クラス内クラスタリングの尺度は、トレーニングデータのニューロンおよび層レベルの表現に基づいて設計される。
論文 参考訳(メタデータ) (2021-03-11T15:26:27Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。