論文の概要: Contributor-Aware Defenses Against Adversarial Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2206.03583v1
- Date: Sat, 28 May 2022 20:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-12 22:21:22.156328
- Title: Contributor-Aware Defenses Against Adversarial Backdoor Attacks
- Title(参考訳): 敵対的バックドア攻撃に対する貢献者対応対策
- Authors: Glenn Dawson, Muhammad Umer, Robi Polikar
- Abstract要約: 敵のバックドア攻撃は 特定の事例を 狙った誤分類を行う能力を示した
本稿では,多元的,潜在的に敵対的なデータソースの存在下で学習するための,コントリビュータを意識したユニバーサル・ディフェンス・フレームワークを提案する。
本研究は,複数の同時敵からの敵のバックドア攻撃に対するフレームワークの堅牢性を示す実証的研究である。
- 参考スコア(独自算出の注目度): 2.830541450812474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks for image classification are well-known to be vulnerable
to adversarial attacks. One such attack that has garnered recent attention is
the adversarial backdoor attack, which has demonstrated the capability to
perform targeted misclassification of specific examples. In particular,
backdoor attacks attempt to force a model to learn spurious relations between
backdoor trigger patterns and false labels. In response to this threat,
numerous defensive measures have been proposed; however, defenses against
backdoor attacks focus on backdoor pattern detection, which may be unreliable
against novel or unexpected types of backdoor pattern designs. We introduce a
novel re-contextualization of the adversarial setting, where the presence of an
adversary implicitly admits the existence of multiple database contributors.
Then, under the mild assumption of contributor awareness, it becomes possible
to exploit this knowledge to defend against backdoor attacks by destroying the
false label associations. We propose a contributor-aware universal defensive
framework for learning in the presence of multiple, potentially adversarial
data sources that utilizes semi-supervised ensembles and learning from crowds
to filter the false labels produced by adversarial triggers. Importantly, this
defensive strategy is agnostic to backdoor pattern design, as it functions
without needing -- or even attempting -- to perform either adversary
identification or backdoor pattern detection during either training or
inference. Our empirical studies demonstrate the robustness of the proposed
framework against adversarial backdoor attacks from multiple simultaneous
adversaries.
- Abstract(参考訳): 画像分類のためのディープニューラルネットワークは、敵の攻撃に弱いことが知られている。
近年注目されている攻撃の1つは、特定の事例の標的の誤分類を行う能力を示す敵対的バックドア攻撃である。
特にバックドア攻撃は、モデルにバックドアトリガーパターンと偽ラベルの間のスプリアスな関係を学習させようとするものである。
この脅威に対応するために、数多くの防御策が提案されているが、バックドア攻撃に対する防御はバックドアパターン検出に重点を置いている。
本稿では,敵の存在が暗黙的に複数のデータベースコントリビュータの存在を認める,敵設定の再コンテキスト化を提案する。
そして、コントリビュータ意識の軽微な仮定の下で、この知識を活用して、偽ラベル協会を破壊することによって、バックドア攻撃を防げる。
本稿では, 半教師付きアンサンブルを利用した複数の潜在的データソースの存在下での学習と, 対人トリガーによる偽ラベルのフィルタリングを, クラウドから学習するためのコントリビュータ対応のユニバーサル・ディフェンス・フレームワークを提案する。
重要なことは、この防御戦略はバックドアパターン設計に非依存であり、トレーニングまたは推論の間、敵の識別またはバックドアパターン検出を実行する必要がない。
本研究は,複数の同時敵からの敵のバックドア攻撃に対する枠組みの堅牢性を示すものである。
関連論文リスト
- Breaking the False Sense of Security in Backdoor Defense through Re-Activation Attack [32.74007523929888]
防衛後のバックドアモデルの特徴を再検討する。
既存の訓練後防衛戦略から派生した防衛モデルには,元のバックドアが現存していることが判明した。
我々は,これらの休眠バックドアを推論中に簡単に再活性化できることを実証的に示す。
論文 参考訳(メタデータ) (2024-05-25T08:57:30Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - On the Difficulty of Defending Contrastive Learning against Backdoor
Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。
本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2023-12-14T15:54:52Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Detecting Backdoors in Deep Text Classifiers [43.36440869257781]
本稿では,テキスト分類モデルに対するバックドア攻撃を一般化する,最初の堅牢な防御機構を提案する。
我々の技術は、データ中毒や重毒など、最先端のバックドア攻撃に対する防御に極めて正確です。
論文 参考訳(メタデータ) (2022-10-11T07:48:03Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Can We Mitigate Backdoor Attack Using Adversarial Detection Methods? [26.8404758315088]
我々は,Deep Neural Networksの敵対的事例とバックドア事例の関連性について包括的に研究する。
我々の知見は, 逆行例と逆行例の両方が推論過程中に異常を有するという観察に基づいている。
バックドアの事例を検出するために,既存の4つの対角防御法を改訂した。
論文 参考訳(メタデータ) (2020-06-26T09:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。