論文の概要: CBPF: Filtering Poisoned Data Based on Composite Backdoor Attack
- arxiv url: http://arxiv.org/abs/2406.16125v1
- Date: Sun, 23 Jun 2024 14:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 18:54:26.438823
- Title: CBPF: Filtering Poisoned Data Based on Composite Backdoor Attack
- Title(参考訳): CBPF:複合的バックドア攻撃に基づく汚染データのフィルタリング
- Authors: Hanfeng Xia, Haibo Hong, Ruili Wang,
- Abstract要約: 本稿では, 汚染試料のろ過を調べた結果, バックドア攻撃のリスク軽減策について検討した。
CBPF (Composite Backdoor Poison Filtering) と呼ばれる新しい3段階毒素データフィルタリング手法が有効な解法として提案されている。
- 参考スコア(独自算出の注目度): 11.815603563125654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks involve the injection of a limited quantity of poisoned examples containing triggers into the training dataset. During the inference stage, backdoor attacks can uphold a high level of accuracy for normal examples, yet when presented with trigger-containing instances, the model may erroneously predict them as the targeted class designated by the attacker. This paper explores strategies for mitigating the risks associated with backdoor attacks by examining the filtration of poisoned samples.We primarily leverage two key characteristics of backdoor attacks: the ability for multiple backdoors to exist simultaneously within a single model, and the discovery through Composite Backdoor Attack (CBA) that altering two triggers in a sample to new target labels does not compromise the original functionality of the triggers, yet enables the prediction of the data as a new target class when both triggers are present simultaneously.Therefore, a novel three-stage poisoning data filtering approach, known as Composite Backdoor Poison Filtering (CBPF), is proposed as an effective solution. Firstly, utilizing the identified distinctions in output between poisoned and clean samples, a subset of data is partitioned to include both poisoned and clean instances. Subsequently, benign triggers are incorporated and labels are adjusted to create new target and benign target classes, thereby prompting the poisoned and clean data to be classified as distinct entities during the inference stage. The experimental results indicate that CBPF is successful in filtering out malicious data produced by six advanced attacks on CIFAR10 and ImageNet-12. On average, CBPF attains a notable filtering success rate of 99.91% for the six attacks on CIFAR10. Additionally, the model trained on the uncontaminated samples exhibits sustained high accuracy levels.
- Abstract(参考訳): バックドア攻撃には、トレーニングデータセットにトリガーを含む限られた量の有毒な例が注入される。
推論段階では、バックドア攻撃は通常の例に対して高いレベルの精度を維持することができるが、トリガーを含むインスタンスが提示されると、モデルが攻撃者が指定したターゲットクラスとしてそれらを誤って予測する可能性がある。
本稿では, 有害試料の濾過によるバックドア攻撃のリスク軽減戦略について検討し, バックドア攻撃の主な特徴として, 複数のバックドアが1つのモデル内に同時に存在すること, サンプル内の2つのトリガを新しいターゲットラベルに変更しても, トリガの本来の機能を損なわない複合バックドア攻撃(CBA)による発見が, 両トリガが同時に存在する場合に, 新たなターゲットクラスとしてのデータ予測を可能にすること, 従来, 複合バックドア・ポゾン・フィルタリング(CBPF)として知られる新しい3段階データフィルタリング手法が提案されている。
まず、汚染されたサンプルとクリーンなサンプルの出力の識別された区別を利用して、データのサブセットを分割して、汚染されたサンプルとクリーンなインスタンスの両方を含める。
その後、良性トリガが組み込まれ、ラベルが調整され、新しいターゲットおよび良性ターゲットクラスが作成される。
実験の結果,CBPFはCIFAR10とImageNet-12に対する6つの高度な攻撃によって生成された悪意のあるデータをフィルタリングすることに成功した。
平均して、CBPFはCIFAR10に対する6回の攻撃で99.91%のフィルタ成功率を達成した。
さらに、汚染されていない試料で訓練されたモデルでは、高い精度が持続する。
関連論文リスト
- SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Poisoning-based Backdoor Attacks for Arbitrary Target Label with Positive Triggers [8.15496105932744]
中毒ベースのバックドア攻撃は、ディープニューラルネットワーク(DNN)トレーニングのデータ準備段階における脆弱性を露呈する。
我々は,敵対的手法にインスパイアされた新たなトリガーの分類を開発し,Positive Triggers (PPT) を用いたマルチラベル・マルチペイロード型バックドアアタックを開発した。
汚いラベル設定とクリーンラベル設定の両方において、提案した攻撃が様々なデータセットの精度を犠牲にすることなく高い攻撃成功率を達成することを実証的に示す。
論文 参考訳(メタデータ) (2024-05-09T06:45:11Z) - Backdoor Attack against One-Class Sequential Anomaly Detection Models [10.020488631167204]
そこで我々は,新たなバックドア攻撃戦略を提案することによって,深部連続異常検出モデルを提案する。
攻撃アプローチは2つの主要なステップ、トリガー生成とバックドアインジェクションから構成される。
2つの確立された1クラスの異常検出モデルにバックドアを注入することにより,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-15T19:19:54Z) - Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - DataElixir: Purifying Poisoned Dataset to Mitigate Backdoor Attacks via
Diffusion Models [12.42597979026873]
汚染されたデータセットを浄化するための新しい衛生手法であるDataElixirを提案する。
我々は拡散モデルを利用してトリガーの特徴を排除し、良性の特徴を復元し、毒を盛ったサンプルを良性のものに変える。
9つの人気のある攻撃で実施された実験は、DataElixirが様々な複雑な攻撃を効果的に軽減し、良識の正確さに最小限の影響を与えることを示した。
論文 参考訳(メタデータ) (2023-12-18T09:40:38Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Mitigating Backdoor Poisoning Attacks through the Lens of Spurious
Correlation [43.75579468533781]
バックドアは、特定のトリガーとターゲットラベルでトレーニングインスタンスを作成できる。
本論文は, バックドア毒殺事件は, 単純なテキスト特徴と分類ラベルとの間には明白な相関関係があることを示唆する。
実験により、悪意のあるトリガーはターゲットラベルと高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2023-05-19T11:18:20Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Poisoned classifiers are not only backdoored, they are fundamentally
broken [84.67778403778442]
一般的に研究されている、分類モデルに対するバックドア中毒攻撃の下で、攻撃者はトレーニングデータのサブセットに小さなトリガーを追加する。
毒を盛った分類器は、引き金を持つ敵のみに弱いと推定されることが多い。
本稿では,このバックドア型分類器の考え方が誤りであることを実証的に示す。
論文 参考訳(メタデータ) (2020-10-18T19:42:44Z) - Systematic Evaluation of Backdoor Data Poisoning Attacks on Image
Classifiers [6.352532169433872]
コンピュータビジョン研究において、機械学習(ML)システムの潜在的な安全性リスクとして、バックドアデータ中毒攻撃が実証されている。
我々の研究は、ML画像分類器のための事前のバックドアデータポゾン研究に基づいている。
有毒なモデルでは、パフォーマンス検査だけでは検出が難しいことが分かりました。
論文 参考訳(メタデータ) (2020-04-24T02:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。