Fugu-MT 論文翻訳(概要): Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks

論文の概要: Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks

arxiv url: http://arxiv.org/abs/2410.10322v2
Date: Sat, 01 Mar 2025 04:06:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-04 17:04:19.519323
Title: Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks
Title（参考訳）: 特徴平均化:ニューラルネットワークの非破壊性に起因したグラディエント・ディフレッシュの暗黙のバイアス
Authors: Binghui Li, Zhixuan Pan, Kaifeng Lyu, Jian Li,
Abstract要約: 勾配降下によって訓練されたニューラルネットワークは、分類に平均的な特徴に依存する傾向があることを示す。勾配降下は、各隠れニューロンの重みがクラスター中心の平均を表す特徴平均化に偏りがあることを証明した。我々は,2層ReLUネットワークが個々の特徴を分類する訓練を行う際に,最適なロバスト性を実現することを証明した。
参考スコア（独自算出の注目度）: 13.983863226803336
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we investigate a particular implicit bias in gradient descent training, which we term "Feature Averaging," and argue that it is one of the principal factors contributing to the non-robustness of deep neural networks. We show that, even when multiple discriminative features are present in the input data, neural networks trained by gradient descent tend to rely on an average (or a certain combination) of these features for classification, rather than distinguishing and leveraging each feature individually. Specifically, we provide a detailed theoretical analysis of the training dynamics of two-layer ReLU networks on a binary classification task, where the data distribution consists of multiple clusters with mutually orthogonal centers. We rigorously prove that gradient descent biases the network towards feature averaging, where the weights of each hidden neuron represent an average of the cluster centers (each corresponding to a distinct feature), thereby making the network vulnerable to input perturbations aligned with the negative direction of the averaged features. On the positive side, we demonstrate that this vulnerability can be mitigated through more granular supervision. In particular, we prove that a two-layer ReLU network can achieve optimal robustness when trained to classify individual features rather than merely the original binary classes. Finally, we validate our theoretical findings with experiments on synthetic datasets, MNIST, and CIFAR-10, and confirm the prevalence of feature averaging and its impact on adversarial robustness. We hope these theoretical and empirical insights deepen the understanding of how gradient descent shapes feature learning and adversarial robustness, and how more detailed supervision can enhance robustness.
Abstract（参考訳）: 本研究では、勾配降下訓練における特に暗黙のバイアスについて検討し、これを「機能平均化(Feature Averaging)」と呼び、深層ニューラルネットワークの非破壊性に寄与する主要な要因の1つとして論じる。入力データに複数の識別的特徴が存在するとしても、勾配降下によって訓練されたニューラルネットワークは、各特徴を個別に区別・活用するのではなく、これらの特徴の平均(または特定の組み合わせ)に依存する傾向にある。具体的には、データ分布が相互直交中心を持つ複数のクラスタで構成される二層分類タスクにおける2層ReLUネットワークのトレーニング力学の詳細な理論的解析を行う。我々は,各隠れニューロンの重みがクラスタセンターの平均値(それぞれ異なる特徴に対応する)を表す特徴平均化に対して,勾配勾配がネットワークに偏りがあることを厳密に証明し,平均的特徴の負の方向に沿った入力摂動に弱いネットワークを実現する。肯定的な面では、この脆弱性はよりきめ細かい監視によって緩和できることを示す。特に,2層ReLUネットワークは,本来のバイナリクラスではなく,個々の特徴を分類する訓練を行えば,最適なロバスト性が得られることを示す。最後に, 合成データセット, MNIST および CIFAR-10 に関する実験により理論的知見を検証し, 特徴量平均化の頻度と, その対向的堅牢性への影響を検証した。これらの理論的および実証的な洞察は、勾配降下が学習と対角的堅牢性をどのように形作るか、そしてより詳細な監督が堅牢性を高めるかを理解することを願っている。

関連論文リスト

Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。 SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文参考訳（メタデータ） (2025-03-12T17:33:13Z)
Adversarial Training Can Provably Improve Robustness: Theoretical Analysis of Feature Learning Process Under Structured Data [38.44734564565478]
本稿では, 特徴学習理論の観点から, 対角的例と対角的学習アルゴリズムの理論的理解を提供する。本手法は,頑健な特徴学習を効果的に強化し,非ロバストな特徴学習を抑えることができることを示す。
論文参考訳（メタデータ） (2024-10-11T03:59:49Z)
Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。ネットワークが強力なデータ依存機能を取得することを示す。驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文参考訳（メタデータ） (2024-06-24T14:50:05Z)
Simplicity Bias of Two-Layer Networks beyond Linearly Separable Data [4.14360329494344]
重みが小さい2層ニューラルネットワークの文脈における一般データセットの単純さバイアスを特徴付け、勾配流を訓練する。 XORのようなパターンを持つデータセットに対しては、学習した特徴を正確に識別し、後続のトレーニング段階で単純さのバイアスが強まることを示す。これらの結果から,訓練中期に学習した特徴がOOD伝達に有用である可能性が示唆された。
論文参考訳（メタデータ） (2024-05-27T16:00:45Z)
Understanding Deep Representation Learning via Layerwise Feature Compression and Discrimination [33.273226655730326]
深層線形ネットワークの各層は、幾何速度でクラス内特徴を徐々に圧縮し、線形速度でクラス間特徴を識別することを示す。これは、ディープ線形ネットワークの階層的表現における特徴進化の最初の定量的評価である。
論文参考訳（メタデータ） (2023-11-06T09:00:38Z)
Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文参考訳（メタデータ） (2023-07-20T13:34:11Z)
Neural networks trained with SGD learn distributions of increasing complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。その後、トレーニング中にのみ高次の統計を利用する。本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文参考訳（メタデータ） (2022-11-21T15:27:22Z)
Discriminability-enforcing loss to improve representation learning [20.4701676109641]
我々は、個々の高次特徴のエントロピーを最小化するために、ジニ不純物にインスパイアされた新しい損失項を導入する。我々のGini損失は高い差別的特徴をもたらすが、高レベルの特徴の分布がクラスの分布と一致していることを保証するものではない。実験結果から,新たな損失項をトレーニング目標に組み込むことで,クロスエントロピー単独でトレーニングしたモデルよりも一貫して優れた結果が得られた。
論文参考訳（メタデータ） (2022-02-14T22:31:37Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
With Greater Distance Comes Worse Performance: On the Perspective of Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文参考訳（メタデータ） (2022-01-28T05:26:32Z)
Efficient and Robust Classification for Sparse Attacks [34.48667992227529]
我々は、画像認識、自然言語処理、マルウェア検出の領域において効果的な攻撃として示されてきた$ell$-normで束縛された摂動を考える。我々は,「トランケーション」と「アドリアル・トレーニング」を組み合わせた新しい防衛手法を提案する。得られた洞察に触発され、これらのコンポーネントをニューラルネットワーク分類器に拡張する。
論文参考訳（メタデータ） (2022-01-23T21:18:17Z)
The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文参考訳（メタデータ） (2021-08-25T22:01:01Z)
Intraclass clustering: an implicit learning ability that regularizes DNNs [22.732204569029648]
ディープニューラルネットワークは,クラス間で有意義なクラスタを抽出する能力によって正規化されることを示す。クラス内クラスタリングの尺度は、トレーニングデータのニューロンおよび層レベルの表現に基づいて設計される。
論文参考訳（メタデータ） (2021-03-11T15:26:27Z)
Anomaly Detection on Attributed Networks via Contrastive Self-Supervised Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文参考訳（メタデータ） (2021-02-27T03:17:20Z)
Learning from Failure: Training Debiased Classifier from Biased Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文参考訳（メタデータ） (2020-07-06T07:20:29Z)
Feature Purification: How Adversarial Training Performs Robust Deep Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文参考訳（メタデータ） (2020-05-20T16:56:08Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)
Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文参考訳（メタデータ） (2020-02-11T15:42:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。