論文の概要: RSBA: Robust Statistical Backdoor Attack under Privilege-Constrained
Scenarios
- arxiv url: http://arxiv.org/abs/2304.10985v2
- Date: Mon, 11 Mar 2024 17:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 17:40:54.827282
- Title: RSBA: Robust Statistical Backdoor Attack under Privilege-Constrained
Scenarios
- Title(参考訳): rsba: 特権制約条件下でのロバストな統計バックドア攻撃
- Authors: Xiaolei Liu, Ming Yi, Kangyi Ding, Bangzhou Xin, Yixiao Xu, Li Yan,
Chao Shen
- Abstract要約: 学習ベースのシステムは、バックドア攻撃に弱いことが示されている。
本稿では,RSBA(Robust Statistical Backdoor Attack under Privilege-Constrained scenarios)を紹介する。
RSBAの画像増倍とモデル蒸留に対するロバスト性を実験的に理論的に実証した。
- 参考スコア(独自算出の注目度): 9.38518049643553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based systems have been demonstrated to be vulnerable to backdoor
attacks, wherein malicious users manipulate model performance by injecting
backdoors into the target model and activating them with specific triggers.
Previous backdoor attack methods primarily focused on two key metrics: attack
success rate and stealthiness. However, these methods often necessitate
significant privileges over the target model, such as control over the training
process, making them challenging to implement in real-world scenarios.
Moreover, the robustness of existing backdoor attacks is not guaranteed, as
they prove sensitive to defenses such as image augmentations and model
distillation. In this paper, we address these two limitations and introduce
RSBA (Robust Statistical Backdoor Attack under Privilege-constrained
Scenarios). The key insight of RSBA is that statistical features can naturally
divide images into different groups, offering a potential implementation of
triggers. This type of trigger is more robust than manually designed ones, as
it is widely distributed in normal images. By leveraging these statistical
triggers, RSBA enables attackers to conduct black-box attacks by solely
poisoning the labels or the images. We empirically and theoretically
demonstrate the robustness of RSBA against image augmentations and model
distillation. Experimental results show that RSBA achieves a 99.83\% attack
success rate in black-box scenarios. Remarkably, it maintains a high success
rate even after model distillation, where attackers lack access to the training
dataset of the student model (1.39\% success rate for baseline methods on
average).
- Abstract(参考訳): 学習ベースのシステムはバックドア攻撃に弱いことが実証されており、悪意のあるユーザがターゲットモデルにバックドアを注入し、特定のトリガーでアクティベートすることで、モデルのパフォーマンスを操作できる。
以前のバックドア攻撃手法は、主に攻撃成功率とステルスネスの2つの重要な指標に焦点を当てていた。
しかしながら、これらの手法は、トレーニングプロセスの制御など、ターゲットモデルに対する重要な特権を必要とすることが多いため、現実のシナリオでは実装が困難になる。
さらに, 既存のバックドア攻撃の堅牢性は, 画像強化やモデル蒸留などの防御に敏感であることから保証されていない。
本稿では,これら2つの制限に対処し,RSBA(Robust Statistical Backdoor Attack under Privilege-Constrained Scenarios)を導入する。
RSBAのキーとなる洞察は、統計的特徴が自然に画像を異なるグループに分割し、トリガーの潜在的な実装を提供することである。
この種のトリガーは手動で設計したものよりも堅牢であり、通常の画像に広く分布している。
これらの統計トリガーを利用することで、rsbaはラベルや画像だけを毒殺することで攻撃者がブラックボックス攻撃を行えるようにする。
RSBAの画像増倍とモデル蒸留に対するロバスト性を実験的に理論的に実証した。
実験の結果、RSBAはブラックボックスのシナリオで99.83\%の攻撃成功率を達成した。
注目すべきは、モデル蒸留後も高い成功率を維持しており、攻撃者は学生モデルのトレーニングデータセットにアクセスできない(平均して1.39 %の成功率)。
関連論文リスト
- DMGNN: Detecting and Mitigating Backdoor Attacks in Graph Neural Networks [30.766013737094532]
我々は,DMGNNを,アウト・オブ・ディストリビューション(OOD)およびイン・ディストリビューション(ID)グラフバックドア攻撃に対して提案する。
DMGNNは、偽説明に基づいてラベル遷移を予測することによって、隠されたIDとOODトリガを容易に識別できる。
DMGNNは最新技術(SOTA)防衛法をはるかに上回り、モデル性能のほとんど無視できる劣化を伴って攻撃成功率を5%に低下させる。
論文 参考訳(メタデータ) (2024-10-18T01:08:03Z) - Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。
動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。
本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文 参考訳(メタデータ) (2024-10-16T18:44:22Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Rethinking Backdoor Attacks on Dataset Distillation: A Kernel Method
Perspective [65.70799289211868]
本稿では, データセット蒸留に特化した2つの新しい理論駆動トリガパターン生成手法を提案する。
最適化に基づくトリガ設計フレームワークは,データセットの蒸留に対する効果的なバックドア攻撃を通知する。
論文 参考訳(メタデータ) (2023-11-28T09:53:05Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z) - Model-Contrastive Learning for Backdoor Defense [13.781375023320981]
モデル・コントラスト学習に基づく新しいバックドア・ディフェンス手法 MCL を提案する。
MCLは、良質なデータの高い精度を維持しながら、バックドアの脅威を減らすのに効果的である。
論文 参考訳(メタデータ) (2022-05-09T16:36:46Z) - Narcissus: A Practical Clean-Label Backdoor Attack with Limited
Information [22.98039177091884]
クリーンラベル」バックドア攻撃には、トレーニングセット全体の知識が必要である。
本稿では,対象クラスの代表例の知識のみに基づいて,クリーンラベルバックドア攻撃をマウントするアルゴリズムを提案する。
私たちの攻撃は、物理的な世界にトリガーが存在する場合でも、データセットやモデル間でうまく機能します。
論文 参考訳(メタデータ) (2022-04-11T16:58:04Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。