論文の概要: Calibration Attack: A Framework For Adversarial Attacks Targeting
Calibration
- arxiv url: http://arxiv.org/abs/2401.02718v1
- Date: Fri, 5 Jan 2024 09:21:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 15:30:55.147550
- Title: Calibration Attack: A Framework For Adversarial Attacks Targeting
Calibration
- Title(参考訳): キャリブレーション攻撃: キャリブレーションを狙う敵攻撃のためのフレームワーク
- Authors: Stephen Obadinma, Xiaodan Zhu, Hongyu Guo
- Abstract要約: そこで我々は,攻撃が生成され,元の精度を変えることなく,被害者モデルの誤判定を阻止するために組織化される,キャリブレーション・アタックと呼ばれる新たな敵攻撃の枠組みを導入する。
我々は、不信攻撃、過信攻撃、最大誤校正攻撃、無作為信頼攻撃の4つの新しいタイプのキャリブレーション攻撃を特定した。
次に、これらの新たな攻撃を、包括的なデータセットを持つ典型的な犠牲者モデルに対してテストし、比較的少ないクエリであっても、攻撃が重大なキャリブレーションミスを引き起こすことを実証した。
- 参考スコア(独自算出の注目度): 39.136552359010366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new framework of adversarial attacks, named calibration
attacks, in which the attacks are generated and organized to trap victim models
to be miscalibrated without altering their original accuracy, hence seriously
endangering the trustworthiness of the models and any decision-making based on
their confidence scores. Specifically, we identify four novel forms of
calibration attacks: underconfidence attacks, overconfidence attacks, maximum
miscalibration attacks, and random confidence attacks, in both the black-box
and white-box setups. We then test these new attacks on typical victim models
with comprehensive datasets, demonstrating that even with a relatively low
number of queries, the attacks can create significant calibration mistakes. We
further provide detailed analyses to understand different aspects of
calibration attacks. Building on that, we investigate the effectiveness of
widely used adversarial defences and calibration methods against these types of
attacks, which then inspires us to devise two novel defences against such
calibration attacks.
- Abstract(参考訳): そこで我々は,攻撃を発生・組織化して,元の精度を変えることなく,被害者モデルの誤判定を防止し,モデルの信頼性と意思決定の信頼性を著しく損なうような,新たな敵攻撃の枠組みを導入する。
具体的には,ブラックボックスとホワイトボックスのいずれにおいても,自信不足攻撃,自信過剰攻撃,最大不均衡攻撃,ランダム信頼攻撃という4つの新しい形態のキャリブレーション攻撃を識別する。
次に、これらの新しい攻撃を一般的な被害者モデルに対して包括的なデータセットでテストし、比較的少ないクエリでも、攻撃が重大な校正ミスを引き起こすことを証明します。
さらに,キャリブレーション攻撃のさまざまな側面を理解するための詳細な分析を行う。
そこで本研究では,このような攻撃に対して広く使用される敵防御とキャリブレーション手法の有効性について検討し,キャリブレーション攻撃に対する2つの新しい防御方法を考案する。
関連論文リスト
- Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - RECESS Vaccine for Federated Learning: Proactive Defense Against Model Poisoning Attacks [20.55681622921858]
モデル中毒は、フェデレートラーニング(FL)の適用を著しく阻害する
本研究では,モデル中毒に対するRECESSという新しいプロアクティブ・ディフェンスを提案する。
各イテレーションをスコアする従来の方法とは異なり、RECESSはクライアントのパフォーマンス相関を複数のイテレーションで考慮し、信頼スコアを見積もる。
論文 参考訳(メタデータ) (2023-10-09T06:09:01Z) - Understanding the Robustness of Randomized Feature Defense Against
Query-Based Adversarial Attacks [23.010308600769545]
ディープニューラルネットワークは、元の画像に近いサンプルを見つける敵の例に弱いが、モデルを誤分類させる可能性がある。
モデル中間層における隠れた特徴にランダムノイズを付加することにより,ブラックボックス攻撃に対する簡易かつ軽量な防御法を提案する。
本手法は,スコアベースと決定ベースの両方のブラックボックス攻撃に対するモデルのレジリエンスを効果的に向上させる。
論文 参考訳(メタデータ) (2023-10-01T03:53:23Z) - Enhancing the Antidote: Improved Pointwise Certifications against Poisoning Attacks [30.42301446202426]
毒殺攻撃は、トレーニングコーパスに小さな変更を加えることで、モデル行動に不当に影響を及ぼす可能性がある。
限られた数のトレーニングサンプルを修正した敵攻撃に対して,サンプルの堅牢性を保証することを可能とする。
論文 参考訳(メタデータ) (2023-08-15T03:46:41Z) - Certifiable Black-Box Attack: Ensuring Provably Successful Attack for
Adversarial Examples [11.88824824539345]
ブラックボックスの敵攻撃は、機械学習モデルを逆転させる強い可能性を示している。
我々は、攻撃の成功率を保証できる認証されたブラックボックス攻撃という、敵対的攻撃の新しいパラダイムを研究するための第一歩を踏み出します。
理論的および実験的な結果により、提案した認証攻撃の有効性が検証された。
論文 参考訳(メタデータ) (2023-04-10T01:12:09Z) - MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.70417016955459]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。
我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。
9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文 参考訳(メタデータ) (2023-02-21T20:26:39Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Are Adversarial Examples Created Equal? A Learnable Weighted Minimax
Risk for Robustness under Non-uniform Attacks [70.11599738647963]
敵の訓練は、強力な攻撃に耐える数少ない防衛の1つである。
従来の防御機構は、基礎となるデータ分布に従って、サンプルに対する均一な攻撃を前提とします。
非一様攻撃に対して重み付けされたミニマックスリスク最適化を提案する。
論文 参考訳(メタデータ) (2020-10-24T21:20:35Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z) - Membership Inference Attacks and Defenses in Classification Models [19.498313593713043]
分類器に対するMI攻撃について検討する。
我々は、MI攻撃に対するモデルの脆弱性が一般化ギャップと密接に関連していることを発見した。
トレーニング精度を意図的に低減し,ギャップを埋めることを目的としたMI攻撃に対する防御手法を提案する。
論文 参考訳(メタデータ) (2020-02-27T12:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。