論文の概要: How to Sift Out a Clean Data Subset in the Presence of Data Poisoning?
- arxiv url: http://arxiv.org/abs/2210.06516v2
- Date: Wed, 31 May 2023 17:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 04:08:18.835039
- Title: How to Sift Out a Clean Data Subset in the Presence of Data Poisoning?
- Title(参考訳): データ中毒の存在下で、クリーンなデータサブセットをふるいにかけるにはどうすればよいか?
- Authors: Yi Zeng, Minzhou Pan, Himanshu Jahagirdar, Ming Jin, Lingjuan Lyu and
Ruoxi Jia
- Abstract要約: データ中毒攻撃の有無でクリーンなデータを特定するために,自動化ツールと人間の検査がいかに正確かを検討する。
本手法は, 既存の攻撃による汚染サンプルが, クリーンなデータ分布から変化していくという知見に基づいている。
評価の結果,Meta-Siftは広範囲の毒素攻撃下で100%の精度でクリーンなベースセットをシフできることがわかった。
- 参考スコア(独自算出の注目度): 22.014227948221727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the volume of data needed to train modern machine learning models,
external suppliers are increasingly used. However, incorporating external data
poses data poisoning risks, wherein attackers manipulate their data to degrade
model utility or integrity. Most poisoning defenses presume access to a set of
clean data (or base set). While this assumption has been taken for granted,
given the fast-growing research on stealthy poisoning attacks, a question
arises: can defenders really identify a clean subset within a contaminated
dataset to support defenses?
This paper starts by examining the impact of poisoned samples on defenses
when they are mistakenly mixed into the base set. We analyze five defenses and
find that their performance deteriorates dramatically with less than 1%
poisoned points in the base set. These findings suggest that sifting out a base
set with high precision is key to these defenses' performance. Motivated by
these observations, we study how precise existing automated tools and human
inspection are at identifying clean data in the presence of data poisoning.
Unfortunately, neither effort achieves the precision needed. Worse yet, many of
the outcomes are worse than random selection.
In addition to uncovering the challenge, we propose a practical
countermeasure, Meta-Sift. Our method is based on the insight that existing
attacks' poisoned samples shifts from clean data distributions. Hence, training
on the clean portion of a dataset and testing on the corrupted portion will
result in high prediction loss. Leveraging the insight, we formulate a bilevel
optimization to identify clean data and further introduce a suite of techniques
to improve efficiency and precision. Our evaluation shows that Meta-Sift can
sift a clean base set with 100% precision under a wide range of poisoning
attacks. The selected base set is large enough to give rise to successful
defenses.
- Abstract(参考訳): 現代の機械学習モデルのトレーニングに必要なデータ量を考えると、外部サプライヤーがますます増えている。
しかし、外部データを組み込むことでデータ中毒のリスクが生じ、攻撃者はモデルの有用性や整合性を損なうためにデータを操作します。
ほとんどの中毒防御は、クリーンなデータ(またはベースセット)へのアクセスを想定している。
この仮定は当然のことながら、ステルス性中毒の攻撃に関する研究が急速に進んでいることを考えると、疑問が持ち上がっている: 被告は汚染されたデータセットの中のクリーンなサブセットを本当に特定して、防衛を支援することができるのか?
本論文は, 被毒試料がベースセットに誤って混入した場合の防御効果について検討することから始める。
5つの防御効果を分析し,その性能は1%未満の毒点で劇的に低下することがわかった。
これらの結果は,高い精度でベースセットをふるい取ることが,これらの防御性能の鍵であることを示唆している。
これらの観察により,既存の自動化ツールと人間の検査が,データ中毒の有無でクリーンなデータをいかに正確に識別するかを調べた。
残念ながら、どちらの努力も必要な精度を達成できません。
さらに悪いことに、結果の多くはランダムな選択よりも悪い。
課題を明らかにすることに加えて,実践的な対策であるMeta-Siftを提案する。
提案手法は,既存攻撃の有毒サンプルがクリーンなデータ分布から移行しているという知見に基づく。
したがって、データセットのクリーンな部分のトレーニングと、破損した部分のテストは、高い予測損失をもたらす。
洞察を活用して、クリーンなデータを特定するための二段階最適化を定式化し、さらに効率と精度を改善するための一連のテクニックを導入します。
評価の結果,Meta-Siftは広範囲の毒素攻撃下で100%精度でクリーンなベースセットをシフできることがわかった。
選択されたベースセットは、防御が成功するのに十分な大きさである。
関連論文リスト
- Diffusion Denoising as a Certified Defense against Clean-label Poisoning [56.04951180983087]
本稿では,市販の拡散モデルを用いて,改ざんしたトレーニングデータを浄化する方法を示す。
7件のクリーンラベル中毒に対する我々の防御を広範囲に検証し、その攻撃成功率を0-16%に抑え、テスト時間の精度は無視できない程度に低下した。
論文 参考訳(メタデータ) (2024-03-18T17:17:07Z) - Poison is Not Traceless: Fully-Agnostic Detection of Poisoning Attacks [4.064462548421468]
本稿では,潜在的に有毒なデータセットの分析にのみ依存する攻撃を検知する新しいフレームワークであるDIVAを提案する。
評価のために,本稿ではラベルフリップ攻撃に対するDIVAを検証した。
論文 参考訳(メタデータ) (2023-10-24T22:27:44Z) - Lethal Dose Conjecture on Data Poisoning [122.83280749890078]
データ中毒は、悪意のある目的のために機械学習アルゴリズムのトレーニングセットを歪ませる敵を考える。
本研究は, 致死線量導出法(Lethal Dose Conjecture)とよばれるデータ中毒の基礎について, 1つの予想を立証するものである。
論文 参考訳(メタデータ) (2022-08-05T17:53:59Z) - Autoregressive Perturbations for Data Poisoning [54.205200221427994]
ソーシャルメディアからのデータスクレイピングは、不正なデータの使用に関する懸念が高まっている。
データ中毒攻撃は、スクラップ対策として提案されている。
より広範なデータセットにアクセスせずに有毒なデータを生成できる自動回帰(AR)中毒を導入する。
論文 参考訳(メタデータ) (2022-06-08T06:24:51Z) - Defening against Adversarial Denial-of-Service Attacks [0.0]
データ中毒は、機械学習とデータ駆動技術に対する最も関連するセキュリティ脅威の1つです。
我々は,dos有毒なインスタンスを検出する新しい手法を提案する。
2つのdos毒殺攻撃と7つのデータセットに対する我々の防御を評価し、毒殺事例を確実に特定できることを確認します。
論文 参考訳(メタデータ) (2021-04-14T09:52:36Z) - Property Inference From Poisoning [15.105224455937025]
プロパティ推論攻撃は、トレーニングされたモデルにアクセスでき、トレーニングデータのグローバルな統計を抽出しようとする敵を考える。
本研究では,モデルの情報漏洩を増大させることが目的とする中毒攻撃について検討する。
以上より,毒殺攻撃は情報漏洩を著しく促進し,敏感なアプリケーションにおいてより強力な脅威モデルと見なされるべきであることが示唆された。
論文 参考訳(メタデータ) (2021-01-26T20:35:28Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - A Framework of Randomized Selection Based Certified Defenses Against
Data Poisoning Attacks [28.593598534525267]
本稿では,ランダム選択に基づくデータ中毒攻撃に対する認証防御の枠組みを提案する。
特定の条件を満たすランダム選択方式は、データ中毒攻撃に対して堅牢であることを示す。
当社のフレームワークは,トレーニングセットと中毒モデルに関する事前知識を活用することで,堅牢性の向上を可能にする。
論文 参考訳(メタデータ) (2020-09-18T10:38:12Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z) - Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and
Data Poisoning Attacks [74.88735178536159]
データ中毒は、モデル盗難から敵の攻撃まで、脅威の中で一番の懸念事項だ。
データ中毒やバックドア攻撃は、テスト設定のバリエーションに非常に敏感である。
厳格なテストを適用して、それらを恐れるべき程度を判断します。
論文 参考訳(メタデータ) (2020-06-22T18:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。