論文の概要: TROJANZOO: Everything you ever wanted to know about neural backdoors
(but were afraid to ask)
- arxiv url: http://arxiv.org/abs/2012.09302v2
- Date: Tue, 22 Dec 2020 06:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 02:53:39.433314
- Title: TROJANZOO: Everything you ever wanted to know about neural backdoors
(but were afraid to ask)
- Title(参考訳): TROJANZOO: 神経バックドアについて知りたかったことすべて(ただし、質問は怖かった)
- Authors: Ren Pang, Zheng Zhang, Xiangshan Gao, Zhaohan Xi, Shouling Ji, Peng
Cheng, Ting Wang
- Abstract要約: TROJANZOOは、ニューラルバックドア攻撃/防御を評価するための最初のオープンソースプラットフォームです。
12の代表的な攻撃、15の最先端の防御、6の攻撃パフォーマンスメトリクス、10の防衛ユーティリティメトリクス、および攻撃防御相互作用の分析のための豊富なツールがあります。
既存の攻撃/防御の体系的な調査を行い、多くの興味深い発見をもたらします。
- 参考スコア(独自算出の注目度): 28.785693760449604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural backdoors represent one primary threat to the security of deep
learning systems. The intensive research on this subject has produced a
plethora of attacks/defenses, resulting in a constant arms race. However, due
to the lack of evaluation benchmarks, many critical questions remain largely
unexplored: (i) How effective, evasive, or transferable are different attacks?
(ii) How robust, utility-preserving, or generic are different defenses? (iii)
How do various factors (e.g., model architectures) impact their performance?
(iv) What are the best practices (e.g., optimization strategies) to operate
such attacks/defenses? (v) How can the existing attacks/defenses be further
improved?
To bridge the gap, we design and implement TROJANZOO, the first open-source
platform for evaluating neural backdoor attacks/defenses in a unified,
holistic, and practical manner. Thus, it has incorporated 12 representative
attacks, 15 state-of-the-art defenses, 6 attack performance metrics, 10 defense
utility metrics, as well as rich tools for in-depth analysis of attack-defense
interactions. Leveraging TROJANZOO, we conduct a systematic study of existing
attacks/defenses, leading to a number of interesting findings: (i) different
attacks manifest various trade-offs among multiple desiderata (e.g.,
effectiveness, evasiveness, and transferability); (ii) one-pixel triggers often
suffice; (iii) optimizing trigger patterns and trojan models jointly improves
both attack effectiveness and evasiveness; (iv) sanitizing trojan models often
introduces new vulnerabilities; (v) most defenses are ineffective against
adaptive attacks, but integrating complementary ones significantly enhances
defense robustness. We envision that such findings will help users select the
right defense solutions and facilitate future research on neural backdoors.
- Abstract(参考訳): ニューラルネットワークのバックドアは,ディープラーニングシステムのセキュリティに対する主要な脅威のひとつだ。
この主題に関する集中的な研究は、多くの攻撃/防御を生み出し、絶え間ない武器競争を引き起こした。
しかしながら、評価ベンチマークが欠如しているため、多くの重要な疑問が未解決のままである: (i) どの程度効果的か、回避可能か、あるいは移行可能か?
(ii) いかに堅牢で、ユーティリティ保存、あるいはジェネリックが異なる防御なのか?
(iii) さまざまな要因(モデルアーキテクチャなど)がパフォーマンスにどのように影響しますか?
(iv)このような攻撃や防御を行うためのベストプラクティス(最適化戦略など)は何ですか?
(v)既存の攻撃・防御をさらに改善できるのか?
このギャップを埋めるために、私たちは、神経バックドア攻撃/防御を統一的で総合的で実用的な方法で評価する、最初のオープンソースプラットフォームであるtrojanzooを設計し、実装します。
これにより、12の代表的な攻撃、15の最先端防御、6つの攻撃性能指標、10の防衛ユーティリティメトリクス、および攻撃と防御の相互作用を詳細に分析するための豊富なツールが組み込まれている。
Leveraging TROJANZOO, we conduct a systematic study of existing attacks/defenses, leading to a number of interesting findings: (i) different attacks manifest various trade-offs among multiple desiderata (e.g., effectiveness, evasiveness, and transferability); (ii) one-pixel triggers often suffice; (iii) optimizing trigger patterns and trojan models jointly improves both attack effectiveness and evasiveness; (iv) sanitizing trojan models often introduces new vulnerabilities; (v) most defenses are ineffective against adaptive attacks, but integrating complementary ones significantly enhances defense robustness.
このような発見は、ユーザーが適切な防御ソリューションを選択し、神経バックドアに関する今後の研究を促進することを期待する。
関連論文リスト
- Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。
我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。
複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文 参考訳(メタデータ) (2024-12-09T05:30:25Z) - Can Go AIs be adversarially robust? [4.466856575755327]
自然対策を加えることで、Goの堅牢性が達成できるかどうかを考察する。
これらの防御策のいくつかは、以前発見された攻撃から守られているが、新しく訓練された敵には耐えられない。
我々の研究結果は、堅牢なAIシステムの構築は、非常に超人的なシステムであっても、最も難易度の高い設定で難しいことを示唆している。
論文 参考訳(メタデータ) (2024-06-18T17:57:49Z) - Versatile Defense Against Adversarial Attacks on Image Recognition [2.9980620769521513]
現実の環境での敵の攻撃に対する防御は、アンチウイルスソフトの動作方法と比較することができる。
画像から画像への翻訳をベースとした防御手法が実現可能であると考えられる。
訓練されたモデルは、分類精度をほぼゼロから平均86%に改善した。
論文 参考訳(メタデータ) (2024-03-13T01:48:01Z) - On the Difficulty of Defending Contrastive Learning against Backdoor
Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。
本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2023-12-14T15:54:52Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Attack Agnostic Adversarial Defense via Visual Imperceptible Bound [70.72413095698961]
本研究の目的は、目視攻撃と目視攻撃の両方に対して一定の範囲内で堅牢な防衛モデルを設計することである。
提案するディフェンスモデルは,MNIST,CIFAR-10,Tiny ImageNetデータベース上で評価される。
提案アルゴリズムは攻撃非依存であり,攻撃アルゴリズムの知識を必要としない。
論文 参考訳(メタデータ) (2020-10-25T23:14:26Z) - Backdoor Attacks and Countermeasures on Deep Learning: A Comprehensive
Review [40.36824357892676]
この研究は、コミュニティにバックドア攻撃のタイムリーなレビューとディープラーニング対策を提供する。
攻撃者の能力と機械学習パイプラインの影響を受けたステージにより、攻撃面は広く認識される。
対策は、ブラインド・バックドア・インスペクション、オフライン・バックドア・インスペクション、オンライン・バックドア・インスペクション、ポスト・バックドア・インスペクションの4つの一般的なクラスに分類される。
論文 参考訳(メタデータ) (2020-07-21T12:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。