論文の概要: Pick your Poison: Undetectability versus Robustness in Data Poisoning
Attacks
- arxiv url: http://arxiv.org/abs/2305.09671v2
- Date: Thu, 29 Jun 2023 15:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 18:57:04.738780
- Title: Pick your Poison: Undetectability versus Robustness in Data Poisoning
Attacks
- Title(参考訳): データ中毒攻撃における検出不能とロバスト性
- Authors: Nils Lukas and Florian Kerschbaum
- Abstract要約: 大量のWebスクラッドデータに基づいてトレーニングされた深層画像分類モデルは、データ中毒の影響を受けやすい。
既存の作業は、効果的な防御を、(i)修理によってモデルの整合性を回復するか、(ii)攻撃を検出するものと見なしている。
我々は、このアプローチが重要なトレードオフを見落としていると論じている。攻撃者は、検知可能性(過剰投下)を犠牲にして増加したり、ロバスト性(過密投下)を犠牲にして検出可能性を減らすことができる。
- 参考スコア(独自算出の注目度): 33.82164201455115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep image classification models trained on vast amounts of web-scraped data
are susceptible to data poisoning - a mechanism for backdooring models. A small
number of poisoned samples seen during training can severely undermine a
model's integrity during inference. Existing work considers an effective
defense as one that either (i) restores a model's integrity through repair or
(ii) detects an attack. We argue that this approach overlooks a crucial
trade-off: Attackers can increase robustness at the expense of detectability
(over-poisoning) or decrease detectability at the cost of robustness
(under-poisoning). In practice, attacks should remain both undetectable and
robust. Detectable but robust attacks draw human attention and rigorous model
evaluation or cause the model to be re-trained or discarded. In contrast,
attacks that are undetectable but lack robustness can be repaired with minimal
impact on model accuracy. Our research points to intrinsic flaws in current
attack evaluation methods and raises the bar for all data poisoning attackers
who must delicately balance this trade-off to remain robust and undetectable.
To demonstrate the existence of more potent defenders, we propose defenses
designed to (i) detect or (ii) repair poisoned models using a limited amount of
trusted image-label pairs. Our results show that an attacker who needs to be
robust and undetectable is substantially less threatening. Our defenses
mitigate all tested attacks with a maximum accuracy decline of 2% using only 1%
of clean data on CIFAR-10 and 2.5% on ImageNet. We demonstrate the scalability
of our defenses by evaluating large vision-language models, such as CLIP.
Attackers who can manipulate the model's parameters pose an elevated risk as
they can achieve higher robustness at low detectability compared to data
poisoning attackers.
- Abstract(参考訳): 大量のWebスクラッドデータに基づいてトレーニングされたディープイメージ分類モデルは、データ中毒(バックドアモデルのためのメカニズム)の影響を受けやすい。
トレーニング中に見られる少量の有毒なサンプルは、推論中にモデルの整合性を著しく損なう可能性がある。
既存の作業は効果的な防御をどちらも考慮している
(i)補修又は補修によりモデルの整合性を回復する
(ii)攻撃を検出する。
攻撃者は、検知可能性(オーバーポゾン)を犠牲にして堅牢性を高めたり、堅牢性(アンダーポゾン)を犠牲にして検出可能性を減らすことができる。
実際には、攻撃は検出不能で堅牢でなければならない。
検出可能だが堅牢な攻撃は、人間の注意と厳格なモデル評価を惹きつけるか、モデルを再訓練または破棄させる。
対照的に、検出不能だが堅牢性に欠ける攻撃は、モデルの精度に最小限の影響で修復できる。
我々の研究は、現在の攻撃評価手法に固有の欠陥を指摘し、このトレードオフを微妙にバランスを取り、堅牢で検出不能なままでいなければならないすべてのデータ中毒攻撃者に対する限界を提起している。
より強力な防御者の存在を示すために、我々は防御方法を提案する。
(i)検出または検出する
二 信頼できる画像ラベル対の限られた量を用いて有毒な模型を修理すること。
以上の結果から,堅牢で検出不能な攻撃者に対する脅威は少なくなることがわかった。
我々の防御は、CIFAR-10のクリーンデータの1%とImageNetの2.5%を使用して、テストされたすべての攻撃を最大で2%の精度で軽減します。
CLIPのような大規模視覚言語モデルを評価することで,防衛のスケーラビリティを実証する。
モデルのパラメータを操作できるアタッカーは、データ中毒攻撃者よりも低い検出性で高いロバスト性を達成することができるため、リスクが高くなる。
関連論文リスト
- Deferred Poisoning: Making the Model More Vulnerable via Hessian Singularization [39.37308843208039]
我々は、より脅迫的なタイプの毒殺攻撃(Dederred Poisoning Attack)を導入する。
この新たな攻撃により、モデルは通常、トレーニングと検証フェーズで機能するが、回避攻撃や自然騒音に非常に敏感になる。
提案手法の理論的および実証的な解析を行い、画像分類タスクの実験を通してその効果を検証した。
論文 参考訳(メタデータ) (2024-11-06T08:27:49Z) - Diffusion Denoising as a Certified Defense against Clean-label Poisoning [56.04951180983087]
本稿では,市販の拡散モデルを用いて,改ざんしたトレーニングデータを浄化する方法を示す。
7件のクリーンラベル中毒に対する我々の防御を広範囲に検証し、その攻撃成功率を0-16%に抑え、テスト時間の精度は無視できない程度に低下した。
論文 参考訳(メタデータ) (2024-03-18T17:17:07Z) - Poison is Not Traceless: Fully-Agnostic Detection of Poisoning Attacks [4.064462548421468]
本稿では,潜在的に有毒なデータセットの分析にのみ依存する攻撃を検知する新しいフレームワークであるDIVAを提案する。
評価のために,本稿ではラベルフリップ攻撃に対するDIVAを検証した。
論文 参考訳(メタデータ) (2023-10-24T22:27:44Z) - RECESS Vaccine for Federated Learning: Proactive Defense Against Model Poisoning Attacks [20.55681622921858]
モデル中毒は、フェデレートラーニング(FL)の適用を著しく阻害する
本研究では,モデル中毒に対するRECESSという新しいプロアクティブ・ディフェンスを提案する。
各イテレーションをスコアする従来の方法とは異なり、RECESSはクライアントのパフォーマンス相関を複数のイテレーションで考慮し、信頼スコアを見積もる。
論文 参考訳(メタデータ) (2023-10-09T06:09:01Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Defening against Adversarial Denial-of-Service Attacks [0.0]
データ中毒は、機械学習とデータ駆動技術に対する最も関連するセキュリティ脅威の1つです。
我々は,dos有毒なインスタンスを検出する新しい手法を提案する。
2つのdos毒殺攻撃と7つのデータセットに対する我々の防御を評価し、毒殺事例を確実に特定できることを確認します。
論文 参考訳(メタデータ) (2021-04-14T09:52:36Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。