論文の概要: Architectural Neural Backdoors from First Principles
- arxiv url: http://arxiv.org/abs/2402.06957v1
- Date: Sat, 10 Feb 2024 13:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 18:17:41.759561
- Title: Architectural Neural Backdoors from First Principles
- Title(参考訳): first principlesによるアーキテクチャニューラルバックドア
- Authors: Harry Langford, Ilia Shumailov, Yiren Zhao, Robert Mullins, Nicolas
Papernot
- Abstract要約: アーキテクチャバックドアは、ネットワークアーキテクチャの定義内に埋め込まれたバックドアです。
この作業では、人間の監督なしにアーキテクチャのバックドアとして使用できる任意のトリガー検出器を構築します。
アーキテクチャのバックドアに対する防御について議論し、MLシステムの完全性を保護するための堅牢で包括的な戦略の必要性を強調した。
- 参考スコア(独自算出の注目度): 44.83442736206931
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While previous research backdoored neural networks by changing their
parameters, recent work uncovered a more insidious threat: backdoors embedded
within the definition of the network's architecture. This involves injecting
common architectural components, such as activation functions and pooling
layers, to subtly introduce a backdoor behavior that persists even after (full
re-)training. However, the full scope and implications of architectural
backdoors have remained largely unexplored. Bober-Irizar et al. [2023]
introduced the first architectural backdoor; they showed how to create a
backdoor for a checkerboard pattern, but never explained how to target an
arbitrary trigger pattern of choice. In this work we construct an arbitrary
trigger detector which can be used to backdoor an architecture with no human
supervision. This leads us to revisit the concept of architecture backdoors and
taxonomise them, describing 12 distinct types. To gauge the difficulty of
detecting such backdoors, we conducted a user study, revealing that ML
developers can only identify suspicious components in common model definitions
as backdoors in 37% of cases, while they surprisingly preferred backdoored
models in 33% of cases. To contextualize these results, we find that language
models outperform humans at the detection of backdoors. Finally, we discuss
defenses against architectural backdoors, emphasizing the need for robust and
comprehensive strategies to safeguard the integrity of ML systems.
- Abstract(参考訳): これまでの研究では、パラメータを変更することでニューラルネットワークをバックドアにしたが、最近の研究でより不可解な脅威が明らかになった:ネットワークアーキテクチャの定義に埋め込まれたバックドア。
これはアクティベーション関数やプーリング層といった一般的なアーキテクチャコンポーネントを注入することで、(再)トレーニング後も持続するバックドアの振る舞いを微妙に導入する。
しかし、建築のバックドアの完全なスコープと影響はほとんど未調査のままである。
Bober-Irizarら。
2023]は最初のアーキテクチャバックドアを導入し、チェッカーボードパターンのバックドアの作成方法を示したが、任意のトリガーパターンをターゲットにする方法は説明しなかった。
この作業では、人間の監督なしにアーキテクチャのバックドアとして使用できる任意のトリガー検出器を構築します。
これにより、アーキテクチャのバックドアの概念を再検討し、それらを分類し、12の異なるタイプを記述します。
このようなバックドア検出の難しさを評価するために,機械学習開発者が共通モデル定義における疑わしいコンポーネントを37%のケースでバックドアとして特定できるのに対して,その33%のケースでは驚くほどバックドアモデルを好むことがわかった。
これらの結果を文脈化するために、言語モデルはバックドアの検出において人間よりも優れています。
最後に,アーキテクチャのバックドアに対する防御について論じ,MLシステムの完全性を保護するための堅牢で包括的な戦略の必要性を強調した。
関連論文リスト
- Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Flatness-aware Sequential Learning Generates Resilient Backdoors [7.969181278996343]
近年、バックドア攻撃は機械学習モデルのセキュリティに対する新たな脅威となっている。
本稿では,連続学習(CL)技術を活用して,バックドアのCFに対処する。
レジリエントなバックドアを生成可能な,SBL(Sequential Backdoor Learning)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-20T03:30:05Z) - Injecting Undetectable Backdoors in Obfuscated Neural Networks and Language Models [39.34881774508323]
外部の専門家企業が開発したMLモデルにおいて,検出不能なバックドアによる脅威について検討する。
我々は,難読性難読化の概念のセキュリティ性を満足する,難読化ニューラルネットワークにバックドアを植える戦略を開発した。
バックドアを植える手法は, 難読化モデルの重量や構造がアクセス可能である場合でも, バックドアの存在が検出できないことを保証している。
論文 参考訳(メタデータ) (2024-06-09T06:26:21Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input
Detection [42.021282816470794]
我々は,Deep Neural Networks(DNN)に対するバックドア攻撃に対する新しい防御法を提案する。
私たちの防衛は、モデルの生成方法とは独立して機能する開発後防衛のカテゴリに分類されます。
モデル推論におけるバックドア入力をフィルタリングする高精度なバックドア入力検出装置の実現可能性を示す。
論文 参考訳(メタデータ) (2023-08-23T21:47:06Z) - An anomaly detection approach for backdoored neural networks: face
recognition as a case study [77.92020418343022]
本稿では,異常検出の原理に基づく新しいバックドアネットワーク検出手法を提案する。
バックドアネットワークの新たなデータセット上で本手法を検証し,完全スコアで検出可能性について報告する。
論文 参考訳(メタデータ) (2022-08-22T12:14:13Z) - Architectural Backdoors in Neural Networks [27.315196801989032]
モデルアーキテクチャの内部に隠れる新しい種類のバックドアアタックを導入します。
これらのバックドアの実装は簡単で、例えばバックドアモデルアーキテクチャ用のオープンソースコードを公開している。
私たちは、モデルアーキテクチャのバックドアが真の脅威であり、他のアプローチとは異なり、ゼロから完全な再トレーニングに耐えられることを実証しています。
論文 参考訳(メタデータ) (2022-06-15T22:44:03Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。