Fugu-MT 論文翻訳(概要): Towards A Critical Evaluation of Robustness for Deep Learning Backdoor Countermeasures

論文の概要: Towards A Critical Evaluation of Robustness for Deep Learning Backdoor Countermeasures

arxiv url: http://arxiv.org/abs/2204.06273v1
Date: Wed, 13 Apr 2022 09:50:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-14 13:43:28.050780
Title: Towards A Critical Evaluation of Robustness for Deep Learning Backdoor Countermeasures
Title（参考訳）: 深層学習のバックドア対策におけるロバストネスの批判的評価に向けて
Authors: Huming Qiu, Hua Ma, Zhi Zhang, Alsharif Abuadbba, Wei Kang, Anmin Fu, Yansong Gao
Abstract要約: 既存のバックドア対策のロバスト性を,3つの有効なモデル検査に焦点をあてて批判的に検討する。これら3つの対策は、それぞれの脅威モデルの下でうまく機能すると主張しているが、本質的に未調査の非破壊事例がある。本研究は, バックドア対策の堅牢性を徹底的に評価することの必要性を強調した。
参考スコア（独自算出の注目度）: 13.56551253289911
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Since Deep Learning (DL) backdoor attacks have been revealed as one of the most insidious adversarial attacks, a number of countermeasures have been developed with certain assumptions defined in their respective threat models. However, the robustness of these countermeasures is inadvertently ignored, which can introduce severe consequences, e.g., a countermeasure can be misused and result in a false implication of backdoor detection. For the first time, we critically examine the robustness of existing backdoor countermeasures with an initial focus on three influential model-inspection ones that are Neural Cleanse (S&P'19), ABS (CCS'19), and MNTD (S&P'21). Although the three countermeasures claim that they work well under their respective threat models, they have inherent unexplored non-robust cases depending on factors such as given tasks, model architectures, datasets, and defense hyper-parameter, which are \textit{not even rooted from delicate adaptive attacks}. We demonstrate how to trivially bypass them aligned with their respective threat models by simply varying aforementioned factors. Particularly, for each defense, formal proofs or empirical studies are used to reveal its two non-robust cases where it is not as robust as it claims or expects, especially the recent MNTD. This work highlights the necessity of thoroughly evaluating the robustness of backdoor countermeasures to avoid their misleading security implications in unknown non-robust cases.
Abstract（参考訳）: 深層学習(DL)のバックドア攻撃は、最も悪質な敵攻撃の1つとして明らかにされて以来、それぞれの脅威モデルに特定の仮定で多くの対策が開発されてきた。しかし、これらの対策の堅牢性は必然的に無視され、例えば、対策が誤用され、裏口検出の誤った影響をもたらすような深刻な結果をもたらす可能性がある。本稿では,既存のバックドア対策の堅牢性を,ニューラルクリーンス(S&P'19),ABS(CCS'19),MNTD(S&P'21)の3つの有効なモデル検査に焦点を当てて,初めて批判的に検討する。 3つの対策は、それぞれの脅威モデルの下でうまく機能すると主張しているが、それらは本来、与えられたタスク、モデルアーキテクチャ、データセット、防衛ハイパーパラメータなどの要因によって、探索されていない非ロバストケースを持つ。上記の要因を単純に変化させることで、それぞれの脅威モデルに沿ってそれらを自在にバイパスする方法を実証する。特に、各防衛のためには、形式的な証明や実証的な研究が、2つの非ロバストなケース、特に最近のmntdの主張や期待ほど堅牢でないことを明らかにするのに使われている。本研究は、未知の非破壊事例におけるセキュリティ上の誤解を招くことを避けるために、バックドア対策の堅牢性を徹底的に評価することの必要性を強調している。

関連論文リスト

Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文参考訳（メタデータ） (2025-06-06T17:33:33Z)
AnywhereDoor: Multi-Target Backdoor Attacks on Object Detection [9.539021752700823]
AnywhereDoorは、オブジェクト検出のためのマルチターゲットバックドアアタックである。敵は、すべてのオブジェクトクラスまたは特定のオブジェクトクラスをまたいで、オブジェクトを消したり、新しいオブジェクトを作ったり、ラベルを間違えたりすることができる。このような柔軟な制御のための既存の手法の適応と比較して、攻撃成功率を26%向上させる。
論文参考訳（メタデータ） (2025-03-09T09:24:24Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
AnywhereDoor: Multi-Target Backdoor Attacks on Object Detection [9.539021752700823]
AnywhereDoorは、オブジェクト検出のためのマルチターゲットバックドアアタックである。敵は、すべてのオブジェクトクラスまたは特定のオブジェクトクラスをまたいで、オブジェクトを消したり、新しいオブジェクトを作ったり、ラベルを間違えたりすることができる。このような柔軟な制御のための既存の手法の適応と比較して、攻撃成功率を26%向上させる。
論文参考訳（メタデータ） (2024-11-21T15:50:59Z)
Countering Backdoor Attacks in Image Recognition: A Survey and Evaluation of Mitigation Strategies [10.801476967873173]
本稿では,画像認識におけるバックドア攻撃に対する既存の緩和策について概説する。我々は、8つの異なるバックドア攻撃に対して、16の最先端アプローチの広範なベンチマークを行う。この結果は122,236個の個別実験から得られたものであり、多くのアプローチがある程度の保護を提供する一方で、その性能はかなり異なる可能性があることを示唆している。
論文参考訳（メタデータ） (2024-11-17T23:30:01Z)
Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。バックドア攻撃は訓練中にモデルに悪意ある行動を埋め込む我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文参考訳（メタデータ） (2024-03-24T18:33:15Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
Demystifying Poisoning Backdoor Attacks from a Statistical Perspective [35.30533879618651]
バックドア攻撃は、そのステルス性や潜在的に深刻な影響により、重大なセキュリティリスクを引き起こす。本稿では,一定のトリガを組み込んだバックドア攻撃の有効性を評価する。我々の導出した理解は、識別モデルと生成モデルの両方に適用できる。
論文参考訳（メタデータ） (2023-10-16T19:35:01Z)
Confidence-driven Sampling for Backdoor Attacks [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文参考訳（メタデータ） (2023-10-08T18:57:36Z)
Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review [15.179940846141873]
サードパーティのデータやモデルを応用することは、NLPにおける言語モデリングの新しいパラダイムとなっている。バックドア攻撃は特定のトリガーを通して予測された行動を示すモデルを誘導できるセキュリティ上の課題、攻撃者の能力、目的を反映した、体系的で包括的なレビューはまだない。
論文参考訳（メタデータ） (2023-09-12T08:48:38Z)
Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文参考訳（メタデータ） (2022-11-02T17:05:45Z)
A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文参考訳（メタデータ） (2022-06-17T02:29:23Z)
On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文参考訳（メタデータ） (2022-05-19T14:26:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。