論文の概要: Planting Undetectable Backdoors in Machine Learning Models
- arxiv url: http://arxiv.org/abs/2204.06974v1
- Date: Thu, 14 Apr 2022 13:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 14:30:02.058582
- Title: Planting Undetectable Backdoors in Machine Learning Models
- Title(参考訳): 機械学習モデルに検出不能なバックドアを植え付ける
- Authors: Shafi Goldwasser, Michael P. Kim, Vinod Vaikuntanathan, Or Zamir
- Abstract要約: 悪意ある学習者が検出不能なバックドアを分類器に組み込む方法を示す。
適切な"バックドアキー"がなければ、そのメカニズムは隠され、計算に拘束されたオブザーバによって検出できない。
検出不能なバックドアを植え付けるための2つのフレームワークを示す。
- 参考スコア(独自算出の注目度): 17.494133972292403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the computational cost and technical expertise required to train
machine learning models, users may delegate the task of learning to a service
provider. We show how a malicious learner can plant an undetectable backdoor
into a classifier. On the surface, such a backdoored classifier behaves
normally, but in reality, the learner maintains a mechanism for changing the
classification of any input, with only a slight perturbation. Importantly,
without the appropriate "backdoor key", the mechanism is hidden and cannot be
detected by any computationally-bounded observer. We demonstrate two frameworks
for planting undetectable backdoors, with incomparable guarantees.
First, we show how to plant a backdoor in any model, using digital signature
schemes. The construction guarantees that given black-box access to the
original model and the backdoored version, it is computationally infeasible to
find even a single input where they differ. This property implies that the
backdoored model has generalization error comparable with the original model.
Second, we demonstrate how to insert undetectable backdoors in models trained
using the Random Fourier Features (RFF) learning paradigm or in Random ReLU
networks. In this construction, undetectability holds against powerful
white-box distinguishers: given a complete description of the network and the
training data, no efficient distinguisher can guess whether the model is
"clean" or contains a backdoor.
Our construction of undetectable backdoors also sheds light on the related
issue of robustness to adversarial examples. In particular, our construction
can produce a classifier that is indistinguishable from an "adversarially
robust" classifier, but where every input has an adversarial example! In
summary, the existence of undetectable backdoors represent a significant
theoretical roadblock to certifying adversarial robustness.
- Abstract(参考訳): 機械学習モデルのトレーニングに必要な計算コストと技術的専門知識を考えると、ユーザは学習のタスクをサービスプロバイダに委譲することができる。
悪意ある学習者が検出不能なバックドアを分類器に組み込む方法を示す。
表面的には、そのようなバックドア型分類器は正常に振る舞うが、実際には学習者はわずかな摂動だけで任意の入力の分類を変更するメカニズムを維持できる。
重要なことに、適切な"バックドアキー"がなければ、そのメカニズムは隠され、計算に拘束されたオブザーバによって検出できない。
検出不能なバックドアを植え付けるための2つのフレームワークを実証する。
まず,デジタル署名方式を用いて,任意のモデルにバックドアを配置する方法を示す。
この構成により、元のモデルとバックドアバージョンへのブラックボックスアクセスが与えられると、それらが異なる1つの入力を見つけることは計算上不可能である。
この性質は、バックドアモデルが元のモデルに匹敵する一般化誤差を持つことを意味する。
次に,Random Fourier Features(RFF)学習パラダイムあるいはRandom ReLUネットワークを用いて学習したモデルに,検出不能なバックドアを挿入する方法を示す。
ネットワークとトレーニングデータの完全な記述が与えられれば、モデルが"クリーン"なのか、あるいはバックドアを含んでいるのかを、効率的な区別者は推測できない。
検出不能なバックドアの構築も,関連事例に対するロバスト性に関する問題点を浮き彫りにしている。
特に、我々の構成は、"adversarially robust"分類器とは区別できないが、すべての入力が逆の例を持つ分類器を生成することができる。
要約すると、検出不能なバックドアの存在は、敵の堅牢性を証明するための重要な理論的障害である。
関連論文リスト
- Oblivious Defense in ML Models: Backdoor Removal without Detection [10.129743924805036]
最近の結果は、敵が検出不能なバックドアを機械学習モデルに植え付けることができることを示している。
本稿では,MLモデルにおけるバックドアの防御戦略について述べる。
論文 参考訳(メタデータ) (2024-11-05T17:20:53Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input
Detection [42.021282816470794]
我々は,Deep Neural Networks(DNN)に対するバックドア攻撃に対する新しい防御法を提案する。
私たちの防衛は、モデルの生成方法とは独立して機能する開発後防衛のカテゴリに分類されます。
モデル推論におけるバックドア入力をフィルタリングする高精度なバックドア入力検出装置の実現可能性を示す。
論文 参考訳(メタデータ) (2023-08-23T21:47:06Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Universal Soldier: Using Universal Adversarial Perturbations for
Detecting Backdoor Attacks [15.917794562400449]
ディープラーニングモデルは、バックドアデータによるトレーニングや、内部ネットワークパラメータの変更によって悪用される。
引き金について事前に知ることなく、クリーンモデルとバックドアモデルとを区別することは困難である。
UAPによるバックドア検出(USB)とリバースエンジニアリング潜在的なバックドアトリガのためのUniversal Soldierという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-01T20:47:58Z) - An anomaly detection approach for backdoored neural networks: face
recognition as a case study [77.92020418343022]
本稿では,異常検出の原理に基づく新しいバックドアネットワーク検出手法を提案する。
バックドアネットワークの新たなデータセット上で本手法を検証し,完全スコアで検出可能性について報告する。
論文 参考訳(メタデータ) (2022-08-22T12:14:13Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Attack of the Tails: Yes, You Really Can Backdoor Federated Learning [21.06925263586183]
フェデレーテッド・ラーニング(FL)は、訓練中にバックドアの形で敵の攻撃を仕掛ける。
エッジケースのバックドアは、トレーニングの一部としてはありそうにない一見簡単な入力、すなわち入力分布の尾に生息するテストデータに対して、モデルに誤った分類を強制する。
これらのエッジケースのバックドアが不便な失敗を招き、フェアネスに深刻な反感を与える可能性があることを示す。
論文 参考訳(メタデータ) (2020-07-09T21:50:54Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。