論文の概要: Calibration Attacks: A Comprehensive Study of Adversarial Attacks on Model Confidence
- arxiv url: http://arxiv.org/abs/2401.02718v2
- Date: Sat, 18 May 2024 00:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 23:40:18.944240
- Title: Calibration Attacks: A Comprehensive Study of Adversarial Attacks on Model Confidence
- Title(参考訳): 校正攻撃 : モデル信頼度に対する敵攻撃の包括的研究
- Authors: Stephen Obadinma, Xiaodan Zhu, Hongyu Guo,
- Abstract要約: キャリブレーション・アタックは 予測されたラベルを変更することなく 被害者のモデルを 非常に誤解させる
キャリブレーション攻撃の典型的な4つの形態として、不信、過信、最大誤校正、無作為不信攻撃を提案する。
この攻撃は、畳み込みモデルと注目モデルの両方において非常に効果的であることを示す。
- 参考スコア(独自算出の注目度): 34.8221014692138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we highlight and perform a comprehensive study on calibration attacks, a form of adversarial attacks that aim to trap victim models to be heavily miscalibrated without altering their predicted labels, hence endangering the trustworthiness of the models and follow-up decision making based on their confidence. We propose four typical forms of calibration attacks: underconfidence, overconfidence, maximum miscalibration, and random confidence attacks, conducted in both the black-box and white-box setups. We demonstrate that the attacks are highly effective on both convolutional and attention-based models: with a small number of queries, they seriously skew confidence without changing the predictive performance. Given the potential danger, we further investigate the effectiveness of a wide range of adversarial defence and recalibration methods, including our proposed defences specifically designed for calibration attacks to mitigate the harm. From the ECE and KS scores, we observe that there are still significant limitations in handling calibration attacks. To the best of our knowledge, this is the first dedicated study that provides a comprehensive investigation on calibration-focused attacks. We hope this study helps attract more attention to these types of attacks and hence hamper their potential serious damages. To this end, this work also provides detailed analyses to understand the characteristics of the attacks.
- Abstract(参考訳): 本研究は, 予測ラベルを変更することなく, 被害者モデルに過度に誤判定を加えることを目的とした攻撃形態であるキャリブレーション・アタック(キャリブレーション・アタック)について, 包括的に検討し, 実施する。
我々は,ブラックボックスとホワイトボックスの双方で実施される,信頼度,過信度,最大誤校正,ランダムな信頼度攻撃の4種類のキャリブレーション攻撃を提案する。
この攻撃は畳み込みモデルと注目モデルの両方で非常に効果的であることが実証された。
本研究は, 危険リスクを考慮し, 被害を軽減するための校正攻撃に特化して設計された防衛を含む, 幅広い敵防衛・再校正手法の有効性について検討する。
ECE と KS のスコアから,キャリブレーション攻撃にはまだ大きな制限があることが明らかとなった。
われわれの知る限りでは、この研究は校正に焦点を絞った攻撃に関する総合的な調査を提供する最初の研究である。
この研究がこの種の攻撃により多くの注意を惹きつけるのに役立つことを願っています。
この目的のために、この研究は攻撃の特性を理解するための詳細な分析も提供する。
関連論文リスト
- Fortify the Guardian, Not the Treasure: Resilient Adversarial Detectors [0.0]
アダプティブアタックとは、攻撃者が防御を意識し、その戦略を適応させる攻撃である。
提案手法は, クリーンな精度を損なうことなく, 敵の訓練を活用して攻撃を検知する能力を強化する。
CIFAR-10とSVHNデータセットの実験的評価により,提案アルゴリズムは,適応的敵攻撃を正確に識別する検出器の能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-04-18T12:13:09Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - RECESS Vaccine for Federated Learning: Proactive Defense Against Model Poisoning Attacks [20.55681622921858]
モデル中毒は、フェデレートラーニング(FL)の適用を著しく阻害する
本研究では,モデル中毒に対するRECESSという新しいプロアクティブ・ディフェンスを提案する。
各イテレーションをスコアする従来の方法とは異なり、RECESSはクライアントのパフォーマンス相関を複数のイテレーションで考慮し、信頼スコアを見積もる。
論文 参考訳(メタデータ) (2023-10-09T06:09:01Z) - Confidence-driven Sampling for Backdoor Attacks [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - Adversarial Attacks Against Uncertainty Quantification [10.655660123083607]
この研究は、攻撃者が依然として不確実性推定を操作することに興味を持つ異なる敵シナリオに焦点を当てる。
特に、アウトプットが下流モジュールや人間のオペレータによって消費される場合、機械学習モデルの使用を損なうことが目標である。
論文 参考訳(メタデータ) (2023-09-19T12:54:09Z) - Enhancing the Antidote: Improved Pointwise Certifications against Poisoning Attacks [30.42301446202426]
毒殺攻撃は、トレーニングコーパスに小さな変更を加えることで、モデル行動に不当に影響を及ぼす可能性がある。
限られた数のトレーニングサンプルを修正した敵攻撃に対して,サンプルの堅牢性を保証することを可能とする。
論文 参考訳(メタデータ) (2023-08-15T03:46:41Z) - Deep-Attack over the Deep Reinforcement Learning [26.272161868927004]
敵攻撃の開発により 強化学習が より脆弱になった
本研究は,実効性と盗聴を自然に考慮し,強化学習に基づく攻撃フレームワークを提案する。
また,これらの2つの側面において,攻撃モデルの性能を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2022-05-02T10:58:19Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。