Fugu-MT 論文翻訳(概要): On the Clean Generalization and Robust Overfitting in Adversarial Training from Two Theoretical Views: Representation Complexity and Training Dynamics

論文の概要: On the Clean Generalization and Robust Overfitting in Adversarial Training from Two Theoretical Views: Representation Complexity and Training Dynamics

arxiv url: http://arxiv.org/abs/2306.01271v4
Date: Thu, 22 May 2025 08:26:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:47.547814
Title: On the Clean Generalization and Robust Overfitting in Adversarial Training from Two Theoretical Views: Representation Complexity and Training Dynamics
Title（参考訳）: 2つの理論的視点から見た対人訓練におけるクリーンな一般化とロバストオーバーフィッティングについて:表現複雑性とトレーニングダイナミクス
Authors: Binghui Li, Yuanzhi Li,
Abstract要約: この現象をクリーン・ジェネリゼーションとロバスト・オーバーフィッティング(CGRO)と呼ぶ。本稿では,2つの視点から,CGRO現象について考察する。本研究では,学習過程中に3段階の位相遷移が起こり,ネットワークが確実に頑健な記憶体制に収束することを示す。
参考スコア（独自算出の注目度）: 38.44734564565478
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Similar to surprising performance in the standard deep learning, deep nets trained by adversarial training also generalize well for unseen clean data (natural data). However, despite adversarial training can achieve low robust training error, there exists a significant robust generalization gap. We call this phenomenon the Clean Generalization and Robust Overfitting (CGRO). In this work, we study the CGRO phenomenon in adversarial training from two views: representation complexity and training dynamics. Specifically, we consider a binary classification setting with $N$ separated training data points. First, we prove that, based on the assumption that we assume there is $\operatorname{poly}(D)$-size clean classifier (where $D$ is the data dimension), ReLU net with only $O(N D)$ extra parameters is able to leverages robust memorization to achieve the CGRO, while robust classifier still requires exponential representation complexity in worst case. Next, we focus on a structured-data case to analyze training dynamics, where we train a two-layer convolutional network with $O(N D)$ width against adversarial perturbation. We then show that a three-stage phase transition occurs during learning process and the network provably converges to robust memorization regime, which thereby results in the CGRO. Besides, we also empirically verify our theoretical analysis by experiments in real-image recognition datasets.
Abstract（参考訳）: 標準的なディープラーニングにおける驚くべきパフォーマンスと同様に、敵対的トレーニングによって訓練されたディープネットは、見えないクリーンデータ(自然データ)に対してもうまく一般化される。しかし、敵の訓練は低い堅牢な訓練誤差を達成できるにもかかわらず、かなりの堅牢な一般化ギャップが存在する。この現象をクリーン・ジェネリゼーションとロバスト・オーバーフィッティング(CGRO)と呼ぶ。本研究では,CGRO現象を,表現複雑性とトレーニングダイナミクスの2つの視点から研究する。具体的には、$N$のトレーニングデータポイントを分離したバイナリ分類設定について検討する。まず、$\operatorname{poly}(D)$-size clean classifier (ここでは$D$がデータ次元である) と仮定すると、余剰パラメータが$O(ND)$のみであるReLU netは、CGROを達成するために頑健な記憶を活用できるが、ロバストな分類は最悪の場合においても指数関数的な表現複雑性を必要とする。次に、トレーニング力学を解析するための構造化データケースに注目し、敵の摂動に対して$O(ND)$の幅を持つ2層畳み込みネットワークを訓練する。次に,3段階の位相遷移が学習過程中に発生し,ネットワークが頑健な記憶状態に確実に収束し,CGROが生じることを示す。また,実画像認識データセットにおける実験による理論的解析を実証的に検証した。

関連論文リスト

Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training [8.824077990271503]
一般化から記憶への移行におけるトレーニングダイナミクスの役割について検討する。私たちは、$tau_mathrmmem$がトレーニングセットサイズ$n$で線形的に増加するのに対して、$tau_mathrmgen$は一定であることに気付きました。 n$がモデル依存しきい値よりも大きくなると、無限のトレーニング時間でオーバーフィットが消える。
論文参考訳（メタデータ） (2025-05-23T08:58:47Z)
Adversarial Training Can Provably Improve Robustness: Theoretical Analysis of Feature Learning Process Under Structured Data [38.44734564565478]
本稿では, 特徴学習理論の観点から, 対角的例と対角的学習アルゴリズムの理論的理解を提供する。本手法は,頑健な特徴学習を効果的に強化し,非ロバストな特徴学習を抑えることができることを示す。
論文参考訳（メタデータ） (2024-10-11T03:59:49Z)
IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。 IT$3$は、イデオロジェンスの普遍性に基づいている。画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文参考訳（メタデータ） (2024-10-05T15:39:51Z)
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。 G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文参考訳（メタデータ） (2024-05-24T08:00:00Z)
Maximal Initial Learning Rates in Deep ReLU Networks [32.157430904535126]
最大初等学習率$etaast$を導入する。定幅完全接続型ReLUネットワークでは,学習後の最大学習率とは,$etaast$が異なる動作を示す。
論文参考訳（メタデータ） (2022-12-14T15:58:37Z)
Supervised Contrastive Prototype Learning: Augmentation Free Robust Neural Network [17.10753224600936]
ディープニューラルネットワーク(DNN)の入力空間における変換は、特徴空間の意図しない変化をもたらす。我々は、SCPL (textbfd Contrastive Prototype Learning$) というトレーニングフレームワークを提案する。同じクラスと反対クラスのプロトタイプでNペアの対照的な損失を使用し、分類ヘッドを$textbfPrototype Classification Head(PCH)で置き換える。私たちのアプローチは、$textitsample efficient$、$textitsample mining$、既存のどのDNNでも変更せずに実装できます。
論文参考訳（メタデータ） (2022-11-26T01:17:15Z)
Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。 SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文参考訳（メタデータ） (2022-10-26T21:03:46Z)
Training \beta-VAE by Aggregating a Learned Gaussian Posterior with a Decoupled Decoder [0.553073476964056]
VAEトレーニングの現在の実践は、しばしば、再構成の忠実さと、潜伏空間の連続性$/$$分散の間のトレードオフをもたらす。本稿では,2つの損失の対角的機構の直観と注意深い解析を行い,VAEを訓練するための簡易で効果的な2段階法を提案する。本手法は, 3次元頭蓋骨再建と形状完成を目的とした医療データセットを用いて評価し, 提案手法を用いてトレーニングしたVAEの有望な生成能力を示す。
論文参考訳（メタデータ） (2022-09-29T13:49:57Z)
Explicit Tradeoffs between Adversarial and Natural Distributional Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文参考訳（メタデータ） (2022-09-15T19:58:01Z)
Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文参考訳（メタデータ） (2022-09-07T20:10:12Z)
Sparsity Winning Twice: Better Robust Generalization from More Efficient Training [94.92954973680914]
スパース対位訓練の代替として, (i) スタティック・スパシティと (ii) ダイナミック・スパシティの2つを紹介した。いずれの方法も、ロバストな一般化ギャップを大幅に縮小し、ロバストなオーバーフィッティングを緩和する。我々のアプローチは既存の正規化器と組み合わせて、敵の訓練における新たな最先端の成果を確立することができる。
論文参考訳（メタデータ） (2022-02-20T15:52:08Z)
Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。 SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文参考訳（メタデータ） (2021-12-15T09:50:25Z)
Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T19:08:53Z)
Provable Robustness of Adversarial Training for Learning Halfspaces with Noise [95.84614821570283]
ラベル雑音の存在下での敵対的ロバストなハーフスペースの特性を分析する。我々の知る限りでは、これは敵の訓練がノイズの分類子を与えることを示す最初の研究である。
論文参考訳（メタデータ） (2021-04-19T16:35:38Z)
Towards Deep Learning Models Resistant to Large Perturbations [0.0]
敵対的堅牢性は、機械学習アルゴリズムの必須特性であることが証明されている。とよばれるアルゴリズムは、大きくても合理的で摂動のマグニチュードが与えられたディープニューラルネットワークのトレーニングに失敗することを示した。
論文参考訳（メタデータ） (2020-03-30T12:03:09Z)
Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文参考訳（メタデータ） (2020-02-26T15:40:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。