論文の概要: Planting Undetectable Backdoors in Machine Learning Models
- arxiv url: http://arxiv.org/abs/2204.06974v2
- Date: Sat, 09 Nov 2024 18:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 17:14:41.433406
- Title: Planting Undetectable Backdoors in Machine Learning Models
- Title(参考訳): 機械学習モデルに検出不能なバックドアを植え付ける
- Authors: Shafi Goldwasser, Michael P. Kim, Vinod Vaikuntanathan, Or Zamir,
- Abstract要約: 悪意ある学習者が検出不能なバックドアを分類器に組み込む方法を示す。
適切な"バックドアキー"がなければ、そのメカニズムは隠され、計算に拘束されたオブザーバによって検出できない。
検出不能なバックドアを植え付けるための2つのフレームワークを示す。
- 参考スコア(独自算出の注目度): 14.592078676445201
- License:
- Abstract: Given the computational cost and technical expertise required to train machine learning models, users may delegate the task of learning to a service provider. We show how a malicious learner can plant an undetectable backdoor into a classifier. On the surface, such a backdoored classifier behaves normally, but in reality, the learner maintains a mechanism for changing the classification of any input, with only a slight perturbation. Importantly, without the appropriate "backdoor key", the mechanism is hidden and cannot be detected by any computationally-bounded observer. We demonstrate two frameworks for planting undetectable backdoors, with incomparable guarantees. First, we show how to plant a backdoor in any model, using digital signature schemes. The construction guarantees that given black-box access to the original model and the backdoored version, it is computationally infeasible to find even a single input where they differ. This property implies that the backdoored model has generalization error comparable with the original model. Second, we demonstrate how to insert undetectable backdoors in models trained using the Random Fourier Features (RFF) learning paradigm or in Random ReLU networks. In this construction, undetectability holds against powerful white-box distinguishers: given a complete description of the network and the training data, no efficient distinguisher can guess whether the model is "clean" or contains a backdoor. Our construction of undetectable backdoors also sheds light on the related issue of robustness to adversarial examples. In particular, our construction can produce a classifier that is indistinguishable from an "adversarially robust" classifier, but where every input has an adversarial example! In summary, the existence of undetectable backdoors represent a significant theoretical roadblock to certifying adversarial robustness.
- Abstract(参考訳): 機械学習モデルをトレーニングするために必要な計算コストと技術的専門知識を考えると、ユーザは学習タスクをサービスプロバイダに委譲することができる。
悪意ある学習者が検出不能なバックドアを分類器に組み込む方法を示す。
表面的には、そのようなバックドア型分類器は正常に振る舞うが、実際には、学習者はわずかな摂動だけで任意の入力の分類を変更するメカニズムを維持できる。
重要なことに、適切な"バックドアキー"がなければ、そのメカニズムは隠され、計算に拘束されたオブザーバによって検出できない。
検出不能なバックドアを植え付けるための2つのフレームワークを実証する。
まず、デジタルシグネチャスキームを用いて、任意のモデルにバックドアを植える方法を示す。
この構成により、元のモデルとバックドアバージョンへのブラックボックスアクセスが与えられた場合、それらが異なる1つの入力を見つけることさえ不可能である。
この性質は、バックドアモデルが元のモデルに匹敵する一般化誤差を持つことを意味する。
次に,Random Fourier Features(RFF)学習パラダイムあるいはRandom ReLUネットワークを用いて学習したモデルに,検出不能なバックドアを挿入する方法を示す。
ネットワークとトレーニングデータの完全な記述が与えられれば、モデルが"クリーン"なのか、あるいはバックドアを含んでいるのかを、効率的な区別者は推測できない。
検出不能なバックドアの構築は、敵の例に対するロバスト性の問題にも光を当てています。
特に、我々の構成では、"逆堅牢"な分類器とは区別できない分類器を生成することができるが、全ての入力が逆例を持つ!
要約すると、検出不能なバックドアの存在は、敵の堅牢性を証明するための重要な理論的障害である。
関連論文リスト
- Oblivious Defense in ML Models: Backdoor Removal without Detection [10.129743924805036]
最近の結果は、敵が検出不能なバックドアを機械学習モデルに植え付けることができることを示している。
本稿では,MLモデルにおけるバックドアの防御戦略について述べる。
論文 参考訳(メタデータ) (2024-11-05T17:20:53Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input
Detection [42.021282816470794]
我々は,Deep Neural Networks(DNN)に対するバックドア攻撃に対する新しい防御法を提案する。
私たちの防衛は、モデルの生成方法とは独立して機能する開発後防衛のカテゴリに分類されます。
モデル推論におけるバックドア入力をフィルタリングする高精度なバックドア入力検出装置の実現可能性を示す。
論文 参考訳(メタデータ) (2023-08-23T21:47:06Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Universal Soldier: Using Universal Adversarial Perturbations for
Detecting Backdoor Attacks [15.917794562400449]
ディープラーニングモデルは、バックドアデータによるトレーニングや、内部ネットワークパラメータの変更によって悪用される。
引き金について事前に知ることなく、クリーンモデルとバックドアモデルとを区別することは困難である。
UAPによるバックドア検出(USB)とリバースエンジニアリング潜在的なバックドアトリガのためのUniversal Soldierという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-01T20:47:58Z) - An anomaly detection approach for backdoored neural networks: face
recognition as a case study [77.92020418343022]
本稿では,異常検出の原理に基づく新しいバックドアネットワーク検出手法を提案する。
バックドアネットワークの新たなデータセット上で本手法を検証し,完全スコアで検出可能性について報告する。
論文 参考訳(メタデータ) (2022-08-22T12:14:13Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Attack of the Tails: Yes, You Really Can Backdoor Federated Learning [21.06925263586183]
フェデレーテッド・ラーニング(FL)は、訓練中にバックドアの形で敵の攻撃を仕掛ける。
エッジケースのバックドアは、トレーニングの一部としてはありそうにない一見簡単な入力、すなわち入力分布の尾に生息するテストデータに対して、モデルに誤った分類を強制する。
これらのエッジケースのバックドアが不便な失敗を招き、フェアネスに深刻な反感を与える可能性があることを示す。
論文 参考訳(メタデータ) (2020-07-09T21:50:54Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。