Fugu-MT 論文翻訳(概要): Extreme Miscalibration and the Illusion of Adversarial Robustness

論文の概要: Extreme Miscalibration and the Illusion of Adversarial Robustness

arxiv url: http://arxiv.org/abs/2402.17509v3
Date: Sun, 13 Oct 2024 16:11:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 02:43:56.521998
Title: Extreme Miscalibration and the Illusion of Adversarial Robustness
Title（参考訳）: 対人ロバストネスの極端緩和とイラシオン
Authors: Vyas Raina, Samson Tan, Volkan Cevher, Aditya Rawal, Sheng Zha, George Karypis,
Abstract要約: 敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
参考スコア（独自算出の注目度）: 66.29268991629085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning-based Natural Language Processing (NLP) models are vulnerable to adversarial attacks, where small perturbations can cause a model to misclassify. Adversarial Training (AT) is often used to increase model robustness. However, we have discovered an intriguing phenomenon: deliberately or accidentally miscalibrating models masks gradients in a way that interferes with adversarial attack search methods, giving rise to an apparent increase in robustness. We show that this observed gain in robustness is an illusion of robustness (IOR), and demonstrate how an adversary can perform various forms of test-time temperature calibration to nullify the aforementioned interference and allow the adversarial attack to find adversarial examples. Hence, we urge the NLP community to incorporate test-time temperature scaling into their robustness evaluations to ensure that any observed gains are genuine. Finally, we show how the temperature can be scaled during \textit{training} to improve genuine robustness.
Abstract（参考訳）: ディープラーニングベースの自然言語処理(NLP)モデルは、小さな摂動によってモデルが誤分類される可能性のある敵攻撃に対して脆弱である。逆行訓練(AT)は、しばしばモデルの堅牢性を高めるために使用される。しかし, 敵の攻撃探索手法に干渉するような方法で, 意図的あるいは誤ってモデルが勾配を覆い隠すという, 興味深い現象が発見され, 強靭性は明らかに増大する。本研究は, 強靭性の観察による獲得は, 強靭性の錯覚(IOR)であり, 上記の干渉を無効化し, 敵の攻撃が敵の例を見出すことを可能にするために, 様々な形態のテスト時間温度校正を行うことができることを示す。したがって、我々はNLPコミュニティに対して、観測された利得が本物であることを確実にするために、テスト時間温度のスケーリングを彼らの堅牢性評価に組み込むよう促す。最後に、実際のロバスト性を改善するために、 \textit{training} の間、どのように温度をスケールできるかを示す。

関連論文リスト

NatADiff: Adversarial Boundary Guidance for Natural Adversarial Diffusion [25.40185694215312]
敵対的なサンプルは「学習された多様体の不規則性」を深層学習モデルによって悪用し、誤分類を引き起こす。そこで我々は,自然対向サンプルを生成するために,デノナイズ拡散を利用した対向サンプリング方式であるNatADiffを提案する。 NatADiffは、モデル間でより効果的に転送するだけでなく、自然に発生するテストタイムエラーに忠実に類似する逆のサンプルを生成する。
論文参考訳（メタデータ） (2025-05-27T09:23:09Z)
Adversarial Robustness Overestimation and Instability in TRADES [4.063518154926961]
TRADES は多クラス分類タスクにおける AutoAttack テストの精度と比較して,PGD の検証精度が極めて高い場合が多い。この矛盾は、勾配マスキングに結びつく可能性のある、これらのインスタンスに対するロバストネスのかなりの過大評価を浮き彫りにする。
論文参考訳（メタデータ） (2024-10-10T07:32:40Z)
Exploring the Adversarial Frontier: Quantifying Robustness via Adversarial Hypervolume [17.198794644483026]
本稿では,様々な摂動強度に対して総合的に深層学習モデルの頑健性を評価するための,対向超体積と呼ばれる新しい計量法を提案する。我々は,様々な摂動強度の対向的堅牢性を均一に向上する新しいトレーニングアルゴリズムを採用する。本研究はロバスト性の新しい尺度に寄与し、敵の脅威に対するベンチマーク評価と、現在および将来の防御モデルのレジリエンスの基準を確立する。
論文参考訳（メタデータ） (2024-03-08T07:03:18Z)
Mitigating Feature Gap for Adversarial Robustness by Feature Disentanglement [61.048842737581865]
逆方向の微調整法は, 逆方向の訓練方法で, 自然に事前訓練されたモデルを微調整することにより, 逆方向の強靭性を高めることを目的としている。特徴ギャップの原因となる潜伏する特徴を明示的にモデル化し,取り除く,アンタングルメントに基づくアプローチを提案する。 3つのベンチマークデータセットに対する実証的な評価は、我々のアプローチが既存の逆方向の微調整法や逆方向のトレーニングベースラインを超えていることを示している。
論文参考訳（メタデータ） (2024-01-26T08:38:57Z)
Robust Deep Learning Models Against Semantic-Preserving Adversarial Attack [3.7264705684737893]
ディープラーニングモデルは、小さな$l_p$-normの逆の摂動と、属性の観点からの自然な摂動によって騙される。本稿では,SPA攻撃という新たな攻撃機構を提案する。
論文参考訳（メタデータ） (2023-04-08T08:28:36Z)
Consistent Valid Physically-Realizable Adversarial Attack against Crowd-flow Prediction Models [4.286570387250455]
ディープラーニング(DL)モデルは、都市全体のクラウドフローパターンを効果的に学習することができる。 DLモデルは、目立たない逆境の摂動に対して不利に作用することが知られている。
論文参考訳（メタデータ） (2023-03-05T13:30:25Z)
Improving Adversarial Robustness to Sensitivity and Invariance Attacks with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文参考訳（メタデータ） (2022-11-04T13:54:02Z)
Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文参考訳（メタデータ） (2022-02-21T10:36:09Z)
On the Robustness of Quality Measures for GANs [136.18799984346248]
本研究は、インセプションスコア(IS)やFr'echet Inception Distance(FID)のような生成モデルの品質測定の堅牢性を評価する。このような測度は、加算画素摂動によっても操作可能であることを示す。
論文参考訳（メタデータ） (2022-01-31T06:43:09Z)
Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文参考訳（メタデータ） (2021-06-21T21:42:08Z)
Improving White-box Robustness of Pre-processing Defenses via Joint Adversarial Training [106.34722726264522]
対向騒音の干渉を軽減するため,様々な対向防御技術が提案されている。プレプロセス法は、ロバストネス劣化効果に悩まされることがある。この負の効果の潜在的な原因は、敵の訓練例が静的であり、前処理モデルとは独立していることである。本稿では,JATP(Joint Adversarial Training Based Pre-processing)防衛法を提案する。
論文参考訳（メタデータ） (2021-06-10T01:45:32Z)
Improving Calibration through the Relationship with Adversarial Robustness [19.384119330332446]
対向ロバスト性とキャリブレーションの関係について検討する。逆ロバスト性に基づく適応ラベリング(AR-AdaLS)を提案する。本手法は,分布シフト下においても,分布内データの対角的ロバスト性を考慮し,モデルに対するキャリブレーションが向上することを見出した。
論文参考訳（メタデータ） (2020-06-29T20:56:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。