論文の概要: Enhancing the Antidote: Improved Pointwise Certifications against Poisoning Attacks
- arxiv url: http://arxiv.org/abs/2308.07553v2
- Date: Mon, 18 Mar 2024 15:05:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 00:50:27.574116
- Title: Enhancing the Antidote: Improved Pointwise Certifications against Poisoning Attacks
- Title(参考訳): 解毒剤の強化: 毒殺攻撃に対するポイントワイズ認証の改善
- Authors: Shijie Liu, Andrew C. Cullen, Paul Montague, Sarah M. Erfani, Benjamin I. P. Rubinstein,
- Abstract要約: 毒殺攻撃は、トレーニングコーパスに小さな変更を加えることで、モデル行動に不当に影響を及ぼす可能性がある。
限られた数のトレーニングサンプルを修正した敵攻撃に対して,サンプルの堅牢性を保証することを可能とする。
- 参考スコア(独自算出の注目度): 30.42301446202426
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Poisoning attacks can disproportionately influence model behaviour by making small changes to the training corpus. While defences against specific poisoning attacks do exist, they in general do not provide any guarantees, leaving them potentially countered by novel attacks. In contrast, by examining worst-case behaviours Certified Defences make it possible to provide guarantees of the robustness of a sample against adversarial attacks modifying a finite number of training samples, known as pointwise certification. We achieve this by exploiting both Differential Privacy and the Sampled Gaussian Mechanism to ensure the invariance of prediction for each testing instance against finite numbers of poisoned examples. In doing so, our model provides guarantees of adversarial robustness that are more than twice as large as those provided by prior certifications.
- Abstract(参考訳): 毒殺攻撃は、トレーニングコーパスに小さな変更を加えることで、モデル行動に不当に影響を及ぼす可能性がある。
特定の毒殺攻撃に対する防御は存在するが、一般的には保証はない。
対照的に、最悪の場合の振る舞いを調べることで、認証された防衛は、ポイントワイド認証として知られる限られた数のトレーニングサンプルを変更する敵攻撃に対して、サンプルの堅牢性を保証することができる。
これを実現するために、差分プライバシーとサンプリングガウス機構の両方を利用して、有限個の有毒例に対して各テストインスタンスの予測のばらつきを確実にする。
そうすることで、我々のモデルは、以前の認証の2倍以上の大きさの敵の堅牢性を保証する。
関連論文リスト
- RECESS Vaccine for Federated Learning: Proactive Defense Against Model Poisoning Attacks [20.55681622921858]
モデル中毒は、フェデレートラーニング(FL)の適用を著しく阻害する
本研究では,モデル中毒に対するRECESSという新しいプロアクティブ・ディフェンスを提案する。
各イテレーションをスコアする従来の方法とは異なり、RECESSはクライアントのパフォーマンス相関を複数のイテレーションで考慮し、信頼スコアを見積もる。
論文 参考訳(メタデータ) (2023-10-09T06:09:01Z) - Confidence-driven Sampling for Backdoor Attacks [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z) - Are Adversarial Examples Created Equal? A Learnable Weighted Minimax
Risk for Robustness under Non-uniform Attacks [70.11599738647963]
敵の訓練は、強力な攻撃に耐える数少ない防衛の1つである。
従来の防御機構は、基礎となるデータ分布に従って、サンプルに対する均一な攻撃を前提とします。
非一様攻撃に対して重み付けされたミニマックスリスク最適化を提案する。
論文 参考訳(メタデータ) (2020-10-24T21:20:35Z) - Adversarial robustness via stochastic regularization of neural
activation sensitivity [24.02105949163359]
両防衛目標を同時に扱う新しい防衛機構を提案する。
損失面の勾配を平坦化し、逆例を見つけるのが難しくなる。
さらに、ジャコビアン正則化を利用して、正しく分類された入力から決定を遠ざける。
論文 参考訳(メタデータ) (2020-09-23T19:31:55Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。