Fugu-MT 論文翻訳(概要): Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks

論文の概要: Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks

arxiv url: http://arxiv.org/abs/2410.10322v1
Date: Mon, 14 Oct 2024 09:28:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-29 22:24:32.207130
Title: Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks
Title（参考訳）: 特徴平均化:ニューラルネットワークの非破壊性に起因したグラディエント・ディフレッシュの暗黙のバイアス
Authors: Binghui Li, Zhixuan Pan, Kaifeng Lyu, Jian Li,
Abstract要約: 我々は「機能平均化」がディープニューラルネットワークの非ロバスト性に寄与する主要な要因の1つであると論じる。二層分類タスクのための2層ReLUネットワークにおいて、勾配降下のトレーニング力学を詳細に理論的に解析する。よりきめ細かい教師付き情報を提供することで、2層多層ニューラルネットワークが個々の特徴を学習できることを実証する。
参考スコア（独自算出の注目度）: 13.983863226803336
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we investigate a particular implicit bias in the gradient descent training process, which we term "Feature Averaging", and argue that it is one of the principal factors contributing to non-robustness of deep neural networks. Despite the existence of multiple discriminative features capable of classifying data, neural networks trained by gradient descent exhibit a tendency to learn the average (or certain combination) of these features, rather than distinguishing and leveraging each feature individually. In particular, we provide a detailed theoretical analysis of the training dynamics of gradient descent in a two-layer ReLU network for a binary classification task, where the data distribution consists of multiple clusters with orthogonal cluster center vectors. We rigorously prove that gradient descent converges to the regime of feature averaging, wherein the weights associated with each hidden-layer neuron represent an average of the cluster centers (each center corresponding to a distinct feature). It leads the network classifier to be non-robust due to an attack that aligns with the negative direction of the averaged features. Furthermore, we prove that, with the provision of more granular supervised information, a two-layer multi-class neural network is capable of learning individual features, from which one can derive a binary classifier with the optimal robustness under our setting. Besides, we also conduct extensive experiments using synthetic datasets, MNIST and CIFAR-10 to substantiate the phenomenon of feature averaging and its role in adversarial robustness of neural networks. We hope the theoretical and empirical insights can provide a deeper understanding of the impact of the gradient descent training on feature learning process, which in turn influences the robustness of the network, and how more detailed supervision may enhance model robustness.
Abstract（参考訳）: 本研究では、勾配降下訓練プロセスにおける特定の暗黙バイアスについて検討し、これを「機能平均化(Feature Averaging)」と呼び、ディープニューラルネットワークの非破壊性に寄与する主要な要因の1つとして論じる。データを分類できる複数の識別的特徴があるにもかかわらず、勾配降下によって訓練されたニューラルネットワークは、それぞれの特徴を個別に区別し活用するのではなく、これらの特徴の平均(または特定の組み合わせ)を学ぶ傾向がある。特に,データ分布は直交クラスタ中心ベクトルを持つ複数のクラスタから構成される2層ReLUネットワークにおいて,勾配降下のトレーニング力学の詳細な理論的解析を行う。我々は,各隠れ層ニューロンに付随する重みがクラスター中心の平均(各中心が特徴に対応する)を表す特徴平均値に勾配勾配が収束することを厳密に証明した。ネットワーク分類器は、平均的な特徴の負の方向と一致する攻撃のため、非破壊的になる。さらに、よりきめ細かい教師付き情報を提供することで、2層ニューラルネットワークが個々の特徴を学習でき、そこから最適なロバスト性を持つバイナリ分類器を導出できることを示す。さらに,合成データセットであるMNISTとCIFAR-10を用いて,特徴平均化現象と,ニューラルネットワークの対向的堅牢性におけるその役割を実証する広範囲な実験を行った。理論的および実証的な洞察は、勾配降下訓練が特徴学習プロセスに与える影響をより深く理解し、それによってネットワークの堅牢性に影響を及ぼし、より詳細な監視がモデルの堅牢性を高めることを期待する。

関連論文リスト

Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。 SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文参考訳（メタデータ） (2025-03-12T17:33:13Z)
Adversarial Training Can Provably Improve Robustness: Theoretical Analysis of Feature Learning Process Under Structured Data [38.44734564565478]
本稿では, 特徴学習理論の観点から, 対角的例と対角的学習アルゴリズムの理論的理解を提供する。本手法は,頑健な特徴学習を効果的に強化し,非ロバストな特徴学習を抑えることができることを示す。
論文参考訳（メタデータ） (2024-10-11T03:59:49Z)
Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。ネットワークが強力なデータ依存機能を取得することを示す。驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文参考訳（メタデータ） (2024-06-24T14:50:05Z)
Simplicity Bias of Two-Layer Networks beyond Linearly Separable Data [4.14360329494344]
重みが小さい2層ニューラルネットワークの文脈における一般データセットの単純さバイアスを特徴付け、勾配流を訓練する。 XORのようなパターンを持つデータセットに対しては、学習した特徴を正確に識別し、後続のトレーニング段階で単純さのバイアスが強まることを示す。これらの結果から,訓練中期に学習した特徴がOOD伝達に有用である可能性が示唆された。
論文参考訳（メタデータ） (2024-05-27T16:00:45Z)
Understanding Deep Representation Learning via Layerwise Feature Compression and Discrimination [33.273226655730326]
深層線形ネットワークの各層は、幾何速度でクラス内特徴を徐々に圧縮し、線形速度でクラス間特徴を識別することを示す。これは、ディープ線形ネットワークの階層的表現における特徴進化の最初の定量的評価である。
論文参考訳（メタデータ） (2023-11-06T09:00:38Z)
Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文参考訳（メタデータ） (2023-07-20T13:34:11Z)
Neural networks trained with SGD learn distributions of increasing complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。その後、トレーニング中にのみ高次の統計を利用する。本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文参考訳（メタデータ） (2022-11-21T15:27:22Z)
Discriminability-enforcing loss to improve representation learning [20.4701676109641]
我々は、個々の高次特徴のエントロピーを最小化するために、ジニ不純物にインスパイアされた新しい損失項を導入する。我々のGini損失は高い差別的特徴をもたらすが、高レベルの特徴の分布がクラスの分布と一致していることを保証するものではない。実験結果から,新たな損失項をトレーニング目標に組み込むことで,クロスエントロピー単独でトレーニングしたモデルよりも一貫して優れた結果が得られた。
論文参考訳（メタデータ） (2022-02-14T22:31:37Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
With Greater Distance Comes Worse Performance: On the Perspective of Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文参考訳（メタデータ） (2022-01-28T05:26:32Z)
Efficient and Robust Classification for Sparse Attacks [34.48667992227529]
我々は、画像認識、自然言語処理、マルウェア検出の領域において効果的な攻撃として示されてきた$ell$-normで束縛された摂動を考える。我々は,「トランケーション」と「アドリアル・トレーニング」を組み合わせた新しい防衛手法を提案する。得られた洞察に触発され、これらのコンポーネントをニューラルネットワーク分類器に拡張する。
論文参考訳（メタデータ） (2022-01-23T21:18:17Z)
The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文参考訳（メタデータ） (2021-08-25T22:01:01Z)
Intraclass clustering: an implicit learning ability that regularizes DNNs [22.732204569029648]
ディープニューラルネットワークは,クラス間で有意義なクラスタを抽出する能力によって正規化されることを示す。クラス内クラスタリングの尺度は、トレーニングデータのニューロンおよび層レベルの表現に基づいて設計される。
論文参考訳（メタデータ） (2021-03-11T15:26:27Z)
Anomaly Detection on Attributed Networks via Contrastive Self-Supervised Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文参考訳（メタデータ） (2021-02-27T03:17:20Z)
Learning from Failure: Training Debiased Classifier from Biased Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文参考訳（メタデータ） (2020-07-06T07:20:29Z)
Feature Purification: How Adversarial Training Performs Robust Deep Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文参考訳（メタデータ） (2020-05-20T16:56:08Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)
Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文参考訳（メタデータ） (2020-02-11T15:42:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。