論文の概要: Architectural Backdoors in Neural Networks
- arxiv url: http://arxiv.org/abs/2206.07840v1
- Date: Wed, 15 Jun 2022 22:44:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 16:26:24.562742
- Title: Architectural Backdoors in Neural Networks
- Title(参考訳): ニューラルネットワークのアーキテクチャバックドア
- Authors: Mikel Bober-Irizar, Ilia Shumailov, Yiren Zhao, Robert Mullins,
Nicolas Papernot
- Abstract要約: モデルアーキテクチャの内部に隠れる新しい種類のバックドアアタックを導入します。
これらのバックドアの実装は簡単で、例えばバックドアモデルアーキテクチャ用のオープンソースコードを公開している。
私たちは、モデルアーキテクチャのバックドアが真の脅威であり、他のアプローチとは異なり、ゼロから完全な再トレーニングに耐えられることを実証しています。
- 参考スコア(独自算出の注目度): 27.315196801989032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning is vulnerable to adversarial manipulation. Previous
literature has demonstrated that at the training stage attackers can manipulate
data and data sampling procedures to control model behaviour. A common attack
goal is to plant backdoors i.e. force the victim model to learn to recognise a
trigger known only by the adversary. In this paper, we introduce a new class of
backdoor attacks that hide inside model architectures i.e. in the inductive
bias of the functions used to train. These backdoors are simple to implement,
for instance by publishing open-source code for a backdoored model architecture
that others will reuse unknowingly. We demonstrate that model architectural
backdoors represent a real threat and, unlike other approaches, can survive a
complete re-training from scratch. We formalise the main construction
principles behind architectural backdoors, such as a link between the input and
the output, and describe some possible protections against them. We evaluate
our attacks on computer vision benchmarks of different scales and demonstrate
the underlying vulnerability is pervasive in a variety of training settings.
- Abstract(参考訳): 機械学習は敵の操作に弱い。
以前の文献では、訓練段階で攻撃者がモデル動作を制御するためにデータやデータサンプリング手順を操作できることが示されている。
一般的な攻撃目標は、バックドアを植えることであり、すなわち、被害者のモデルに敵によってのみ知られる引き金の認識を強制することである。
本稿では,モデルアーキテクチャの内部,すなわちトレーニングに使用される関数の帰納的バイアスを隠蔽する,新たなバックドア攻撃のクラスを提案する。
これらのバックドアの実装は簡単で、例えば、バックドアモデルアーキテクチャ用のオープンソースコードを公開することで、他の人が無意識に再利用することができる。
私たちは、モデルアーキテクチャのバックドアが本当の脅威であり、他のアプローチとは異なり、スクラッチから完全な再トレーニングに耐えられることを実証します。
我々は、入力と出力のリンクのようなアーキテクチャバックドアの背後にある主要な建設原則を定式化し、それらに対するいくつかの保護について記述する。
さまざまなスケールのコンピュータビジョンベンチマークに対する攻撃を評価し、さまざまなトレーニング環境で基盤となる脆弱性が広まることを実証します。
関連論文リスト
- Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor [0.24335447922683692]
基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入します。
モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、レイヤの重みを変更することができる。
我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-03T14:54:16Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Architectural Neural Backdoors from First Principles [44.83442736206931]
アーキテクチャバックドアは、ネットワークアーキテクチャの定義内に埋め込まれたバックドアです。
この作業では、人間の監督なしにアーキテクチャのバックドアとして使用できる任意のトリガー検出器を構築します。
アーキテクチャのバックドアに対する防御について議論し、MLシステムの完全性を保護するための堅牢で包括的な戦略の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-10T13:57:51Z) - PatchBackdoor: Backdoor Attack against Deep Neural Networks without
Model Modification [0.0]
バックドア攻撃は、安全クリティカルなシナリオにおけるディープラーニングシステムに対する大きな脅威である。
本稿では,モデル変更なしにバックドア攻撃が可能であることを示す。
PatchBackdoorを現実のシナリオで実装し、攻撃がまだ脅威であることを示す。
論文 参考訳(メタデータ) (2023-08-22T23:02:06Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z) - Blind Backdoors in Deep Learning Models [22.844973592524966]
本稿では,機械学習モデルにバックドアを注入する新しい手法について検討する。
従来の文献よりも厳格に強力なバックドアの新たなクラスを実証するために使用しています。
攻撃者はトレーニングデータを変更したり、コードの実行を観察したり、結果のモデルにアクセスしたりすることができません。
論文 参考訳(メタデータ) (2020-05-08T02:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。