論文の概要: Enhancing the Antidote: Improved Pointwise Certifications against
Poisoning Attacks
- arxiv url: http://arxiv.org/abs/2308.07553v1
- Date: Tue, 15 Aug 2023 03:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 14:11:04.475766
- Title: Enhancing the Antidote: Improved Pointwise Certifications against
Poisoning Attacks
- Title(参考訳): antidoteの強化: 中毒攻撃に対するポイントワイズ認定の改善
- Authors: Shijie Liu, Andrew C. Cullen, Paul Montague, Sarah M. Erfani, Benjamin
I. P. Rubinstein
- Abstract要約: 毒殺攻撃は、トレーニングコーパスに小さな変更を加えることで、モデル行動に不当に影響を及ぼす可能性がある。
限られた数のトレーニングサンプルを修正した敵攻撃に対して,サンプルの堅牢性を保証することを可能とする。
- 参考スコア(独自算出の注目度): 32.63920797751968
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Poisoning attacks can disproportionately influence model behaviour by making
small changes to the training corpus. While defences against specific poisoning
attacks do exist, they in general do not provide any guarantees, leaving them
potentially countered by novel attacks. In contrast, by examining worst-case
behaviours Certified Defences make it possible to provide guarantees of the
robustness of a sample against adversarial attacks modifying a finite number of
training samples, known as pointwise certification. We achieve this by
exploiting both Differential Privacy and the Sampled Gaussian Mechanism to
ensure the invariance of prediction for each testing instance against finite
numbers of poisoned examples. In doing so, our model provides guarantees of
adversarial robustness that are more than twice as large as those provided by
prior certifications.
- Abstract(参考訳): 毒殺攻撃は、トレーニングコーパスに小さな変更を加えることで、モデルの振る舞いに不釣り合いに影響を及ぼす。
特定の毒殺攻撃に対する防御は存在するが、一般的には保証がなく、新しい攻撃によって対抗する可能性がある。
対照的に、最悪の場合の振る舞いを調べることで、認証された防衛は、ポイントワイド認証として知られる限られた数のトレーニングサンプルを変更する敵攻撃に対して、サンプルの堅牢性を保証することができる。
これを実現するために、差分プライバシーとサンプリングガウス機構の両方を利用して、有限個の有毒例に対して各テストインスタンスの予測のばらつきを確実にする。
そうすることで、我々のモデルは、先行認定の2倍以上の大きさの敵対的堅牢性の保証を提供する。
関連論文リスト
- Certifiable Black-Box Attack: Ensuring Provably Successful Attack for
Adversarial Examples [11.88824824539345]
ブラックボックスの敵攻撃は、機械学習モデルを逆転させる強い可能性を示している。
我々は、攻撃の成功率を保証できる認証されたブラックボックス攻撃という、敵対的攻撃の新しいパラダイムを研究するための第一歩を踏み出します。
理論的および実験的な結果により、提案した認証攻撃の有効性が検証された。
論文 参考訳(メタデータ) (2023-04-10T01:12:09Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z) - Are Adversarial Examples Created Equal? A Learnable Weighted Minimax
Risk for Robustness under Non-uniform Attacks [70.11599738647963]
敵の訓練は、強力な攻撃に耐える数少ない防衛の1つである。
従来の防御機構は、基礎となるデータ分布に従って、サンプルに対する均一な攻撃を前提とします。
非一様攻撃に対して重み付けされたミニマックスリスク最適化を提案する。
論文 参考訳(メタデータ) (2020-10-24T21:20:35Z) - Adversarial robustness via stochastic regularization of neural
activation sensitivity [24.02105949163359]
両防衛目標を同時に扱う新しい防衛機構を提案する。
損失面の勾配を平坦化し、逆例を見つけるのが難しくなる。
さらに、ジャコビアン正則化を利用して、正しく分類された入力から決定を遠ざける。
論文 参考訳(メタデータ) (2020-09-23T19:31:55Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。