論文の概要: Extreme Miscalibration and the Illusion of Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2402.17509v3
- Date: Sun, 13 Oct 2024 16:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:03:15.732216
- Title: Extreme Miscalibration and the Illusion of Adversarial Robustness
- Title(参考訳): 対人ロバストネスの極端緩和とイラシオン
- Authors: Vyas Raina, Samson Tan, Volkan Cevher, Aditya Rawal, Sheng Zha, George Karypis,
- Abstract要約: 敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
- 参考スコア(独自算出の注目度): 66.29268991629085
- License:
- Abstract: Deep learning-based Natural Language Processing (NLP) models are vulnerable to adversarial attacks, where small perturbations can cause a model to misclassify. Adversarial Training (AT) is often used to increase model robustness. However, we have discovered an intriguing phenomenon: deliberately or accidentally miscalibrating models masks gradients in a way that interferes with adversarial attack search methods, giving rise to an apparent increase in robustness. We show that this observed gain in robustness is an illusion of robustness (IOR), and demonstrate how an adversary can perform various forms of test-time temperature calibration to nullify the aforementioned interference and allow the adversarial attack to find adversarial examples. Hence, we urge the NLP community to incorporate test-time temperature scaling into their robustness evaluations to ensure that any observed gains are genuine. Finally, we show how the temperature can be scaled during \textit{training} to improve genuine robustness.
- Abstract(参考訳): ディープラーニングベースの自然言語処理(NLP)モデルは、小さな摂動によってモデルが誤分類される可能性のある敵攻撃に対して脆弱である。
逆行訓練(AT)は、しばしばモデルの堅牢性を高めるために使用される。
しかし, 敵の攻撃探索手法に干渉するような方法で, 意図的あるいは誤ってモデルが勾配を覆い隠すという, 興味深い現象が発見され, 強靭性は明らかに増大する。
本研究は, 強靭性の観察による獲得は, 強靭性の錯覚(IOR)であり, 上記の干渉を無効化し, 敵の攻撃が敵の例を見出すことを可能にするために, 様々な形態のテスト時間温度校正を行うことができることを示す。
したがって、我々はNLPコミュニティに対して、観測された利得が本物であることを確実にするために、テスト時間温度のスケーリングを彼らの堅牢性評価に組み込むよう促す。
最後に、実際のロバスト性を改善するために、 \textit{training} の間、どのように温度をスケールできるかを示す。
関連論文リスト
- Adversarial Robustness Overestimation and Instability in TRADES [4.063518154926961]
TRADES は多クラス分類タスクにおける AutoAttack テストの精度と比較して,PGD の検証精度が極めて高い場合が多い。
この矛盾は、勾配マスキングに結びつく可能性のある、これらのインスタンスに対するロバストネスのかなりの過大評価を浮き彫りにする。
論文 参考訳(メタデータ) (2024-10-10T07:32:40Z) - Exploring the Adversarial Frontier: Quantifying Robustness via Adversarial Hypervolume [17.198794644483026]
本稿では,様々な摂動強度に対して総合的に深層学習モデルの頑健性を評価するための,対向超体積と呼ばれる新しい計量法を提案する。
我々は,様々な摂動強度の対向的堅牢性を均一に向上する新しいトレーニングアルゴリズムを採用する。
本研究はロバスト性の新しい尺度に寄与し、敵の脅威に対するベンチマーク評価と、現在および将来の防御モデルのレジリエンスの基準を確立する。
論文 参考訳(メタデータ) (2024-03-08T07:03:18Z) - Mitigating Feature Gap for Adversarial Robustness by Feature
Disentanglement [61.048842737581865]
逆方向の微調整法は, 逆方向の訓練方法で, 自然に事前訓練されたモデルを微調整することにより, 逆方向の強靭性を高めることを目的としている。
特徴ギャップの原因となる潜伏する特徴を明示的にモデル化し,取り除く,アンタングルメントに基づくアプローチを提案する。
3つのベンチマークデータセットに対する実証的な評価は、我々のアプローチが既存の逆方向の微調整法や逆方向のトレーニングベースラインを超えていることを示している。
論文 参考訳(メタデータ) (2024-01-26T08:38:57Z) - Robust Deep Learning Models Against Semantic-Preserving Adversarial
Attack [3.7264705684737893]
ディープラーニングモデルは、小さな$l_p$-normの逆の摂動と、属性の観点からの自然な摂動によって騙される。
本稿では,SPA攻撃という新たな攻撃機構を提案する。
論文 参考訳(メタデータ) (2023-04-08T08:28:36Z) - Consistent Valid Physically-Realizable Adversarial Attack against
Crowd-flow Prediction Models [4.286570387250455]
ディープラーニング(DL)モデルは、都市全体のクラウドフローパターンを効果的に学習することができる。
DLモデルは、目立たない逆境の摂動に対して不利に作用することが知られている。
論文 参考訳(メタデータ) (2023-03-05T13:30:25Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - On the Robustness of Quality Measures for GANs [136.18799984346248]
本研究は、インセプションスコア(IS)やFr'echet Inception Distance(FID)のような生成モデルの品質測定の堅牢性を評価する。
このような測度は、加算画素摂動によっても操作可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T06:43:09Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Improving Calibration through the Relationship with Adversarial
Robustness [19.384119330332446]
対向ロバスト性とキャリブレーションの関係について検討する。
逆ロバスト性に基づく適応ラベリング(AR-AdaLS)を提案する。
本手法は,分布シフト下においても,分布内データの対角的ロバスト性を考慮し,モデルに対するキャリブレーションが向上することを見出した。
論文 参考訳(メタデータ) (2020-06-29T20:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。