論文の概要: Catastrophic Overfitting, Entropy Gap and Participation Ratio: A Noiseless $l^p$ Norm Solution for Fast Adversarial Training
- arxiv url: http://arxiv.org/abs/2505.02360v1
- Date: Mon, 05 May 2025 04:41:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.558489
- Title: Catastrophic Overfitting, Entropy Gap and Participation Ratio: A Noiseless $l^p$ Norm Solution for Fast Adversarial Training
- Title(参考訳): カタストロフィックオーバーフィッティング,エントロピーギャップ,参加率:高速対人訓練のためのノイズレス$l^p$ノームソリューション
- Authors: Fares B. Mehouachi, Saif Eddin Jabari,
- Abstract要約: 我々は,破滅的オーバーフィッティング(CO)を緩和するために,$lp$のトレーニング規範を制御する新しいソリューションを提案する。
我々の研究は、COが$l2$ノルムよりも$linfty$ノルムでより広く見られるという経験的観察によって動機づけられている。
参加率とエントロピー測定による勾配濃度の定量化により、勾配情報に基づいてトレーニング基準を自動的に調整する適応的な$lp$-FGSMを開発する。
- 参考スコア(独自算出の注目度): 6.393645655578601
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Adversarial training is a cornerstone of robust deep learning, but fast methods like the Fast Gradient Sign Method (FGSM) often suffer from Catastrophic Overfitting (CO), where models become robust to single-step attacks but fail against multi-step variants. While existing solutions rely on noise injection, regularization, or gradient clipping, we propose a novel solution that purely controls the $l^p$ training norm to mitigate CO. Our study is motivated by the empirical observation that CO is more prevalent under the $l^{\infty}$ norm than the $l^2$ norm. Leveraging this insight, we develop a framework for generalized $l^p$ attack as a fixed point problem and craft $l^p$-FGSM attacks to understand the transition mechanics from $l^2$ to $l^{\infty}$. This leads to our core insight: CO emerges when highly concentrated gradients where information localizes in few dimensions interact with aggressive norm constraints. By quantifying gradient concentration through Participation Ratio and entropy measures, we develop an adaptive $l^p$-FGSM that automatically tunes the training norm based on gradient information. Extensive experiments demonstrate that this approach achieves strong robustness without requiring additional regularization or noise injection, providing a novel and theoretically-principled pathway to mitigate the CO problem.
- Abstract(参考訳): しかし、FGSM(Fast Gradient Sign Method)のような高速な手法は、単一ステップの攻撃に対してモデルが堅牢になるが、マルチステップの変形に対して失敗する、破滅的なオーバーフィッティング(CO)に悩まされることが多い。
既存のソリューションはノイズ注入、正規化、勾配クリッピングに依存しているが、COを緩和するために$l^p$のトレーニング規範を純粋に制御する新しいソリューションを提案する。
我々の研究は、COが$l^{\infty}$ノルムよりも$l^2$ノルムでより広く用いられるという経験的観察によって動機付けられている。
この知見を生かして、固定点問題として一般化された$l^p$攻撃のためのフレームワークを開発し、$l^p$-FGSM攻撃を実行して、$l^2$から$l^{\infty}$への遷移力学を理解する。
COは、少数の次元で情報をローカライズする高度に集中した勾配が、アグレッシブなノルム制約と相互作用するときに出現します。
参加率とエントロピー測定による勾配濃度の定量化により、勾配情報に基づいて学習基準を自動的に調整する適応的な$l^p$-FGSMを開発する。
広汎な実験により、この手法は追加の正規化やノイズ注入を必要とせず、CO問題を緩和するための新しい理論的な経路を提供することなく、強い堅牢性を達成することが示されている。
関連論文リスト
- ZClip: Adaptive Spike Mitigation for LLM Pre-Training [0.3574867616159909]
大規模言語モデル(LLM)のトレーニングには、勾配不安定性や損失スパイクなど、数多くの課題がある。
定数法やノルム法のような従来の勾配クリッピング技術は、これらの問題に効果的に対処できない。
本研究では,時間とともに勾配規範の統計的特性に基づいてクリッピング閾値を動的に調整する適応的勾配クリッピングアルゴリズムZClipを提案する。
論文 参考訳(メタデータ) (2025-04-03T11:41:55Z) - PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。
また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Efficient local linearity regularization to overcome catastrophic
overfitting [59.463867084204566]
単段階逆行訓練におけるカタストロフィックオーバーフィッティング(CO)は、逆行性テスト精度(最大0%まで)の急激な低下をもたらす。
我々は,従来のAT評価においてCOを効果的かつ効率的に緩和するために,ELLEと呼ばれる正規化項を導入する。
論文 参考訳(メタデータ) (2024-01-21T22:55:26Z) - Label Noise SGD Provably Prefers Flat Global Minimizers [48.883469271546076]
過度パラメータ化モデルでは、勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。
ラベルノイズを持つSGDが正規化損失$L(theta) +lambda R(theta)$の定常点に収束することを示す。
解析の結果,線形スケーリング法則を超越した大規模学習率の正規化効果が明らかとなった。
論文 参考訳(メタデータ) (2021-06-11T17:59:07Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。