論文の概要: Trojan Horse Training for Breaking Defenses against Backdoor Attacks in
Deep Learning
- arxiv url: http://arxiv.org/abs/2203.15506v1
- Date: Fri, 25 Mar 2022 02:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-03 07:31:10.781634
- Title: Trojan Horse Training for Breaking Defenses against Backdoor Attacks in
Deep Learning
- Title(参考訳): 深層学習における後方攻撃防止のためのトロイの木馬訓練
- Authors: Arezoo Rajabi, Bhaskar Ramasubramanian, Radha Poovendran
- Abstract要約: バックドアを含むMLモデルは、トロイの木馬モデルと呼ばれる。
現在のシングルターゲットバックドア攻撃では、ターゲットクラス毎に1つのトリガーが必要である。
我々は、単一のトリガが複数のターゲットクラスに誤分類をもたらすような、より一般的な新しい攻撃を導入する。
- 参考スコア(独自算出の注目度): 7.3007220721129364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) models that use deep neural networks are vulnerable to
backdoor attacks. Such attacks involve the insertion of a (hidden) trigger by
an adversary. As a consequence, any input that contains the trigger will cause
the neural network to misclassify the input to a (single) target class, while
classifying other inputs without a trigger correctly. ML models that contain a
backdoor are called Trojan models. Backdoors can have severe consequences in
safety-critical cyber and cyber physical systems when only the outputs of the
model are available. Defense mechanisms have been developed and illustrated to
be able to distinguish between outputs from a Trojan model and a non-Trojan
model in the case of a single-target backdoor attack with accuracy > 96
percent. Understanding the limitations of a defense mechanism requires the
construction of examples where the mechanism fails. Current single-target
backdoor attacks require one trigger per target class. We introduce a new, more
general attack that will enable a single trigger to result in misclassification
to more than one target class. Such a misclassification will depend on the true
(actual) class that the input belongs to. We term this category of attacks
multi-target backdoor attacks. We demonstrate that a Trojan model with either a
single-target or multi-target trigger can be trained so that the accuracy of a
defense mechanism that seeks to distinguish between outputs coming from a
Trojan and a non-Trojan model will be reduced. Our approach uses the non-Trojan
model as a teacher for the Trojan model and solves a min-max optimization
problem between the Trojan model and defense mechanism. Empirical evaluations
demonstrate that our training procedure reduces the accuracy of a
state-of-the-art defense mechanism from >96 to 0 percent.
- Abstract(参考訳): ディープニューラルネットワークを使用する機械学習(ML)モデルは、バックドア攻撃に対して脆弱である。
このような攻撃は、敵による(隠れた)トリガーの挿入を含む。
その結果、トリガーを含む任意の入力は、ニューラルネットワークが(単一の)ターゲットクラスへの入力を誤って分類し、トリガーなしで他の入力を正しく分類する。
バックドアを含むMLモデルは、トロイの木馬モデルと呼ばれる。
バックドアは、モデル出力のみが利用可能である場合、安全に重要なサイバーおよびサイバー物理システムに深刻な影響をもたらす可能性がある。
単一ターゲットのバックドア攻撃の場合、トロイの木馬モデルと非トロイの木馬モデルの出力を96%の精度で区別できる防衛機構が開発され、実証されている。
防御機構の限界を理解するには、その機構が失敗する例を構築する必要がある。
現在の単一ターゲットのバックドア攻撃は、ターゲットクラスごとに1つのトリガーを必要とする。
我々は、単一のトリガが複数のターゲットクラスに誤分類をもたらすような、より一般的な新しい攻撃を導入する。
このような誤分類は、入力が属する真の(実際の)クラスに依存する。
我々は、この攻撃のカテゴリをマルチターゲットバックドア攻撃と呼ぶ。
単一ターゲットまたは複数ターゲットのトリガを持つトロイの木馬モデルを訓練することにより、トロイの木馬の出力と非トロイの木馬の出力を区別する防衛機構の精度を低減できることを示す。
本手法は, トロイの木馬モデルの教師として非トロイの木馬モデルを用い, トロイの木馬モデルと防御機構の間の最小最適化問題を解く。
経験的評価により,本訓練は最先端防御機構の精度を96~0%に低下させることが示された。
関連論文リスト
- TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文 参考訳(メタデータ) (2024-05-27T03:10:57Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Evil from Within: Machine Learning Backdoors through Hardware Trojans [72.99519529521919]
バックドアは、自動運転車のようなセキュリティクリティカルなシステムの整合性を損なう可能性があるため、機械学習に深刻な脅威をもたらす。
私たちは、機械学習のための一般的なハードウェアアクセラレーターに完全に存在するバックドアアタックを導入します。
我々は,Xilinx Vitis AI DPUにハードウェアトロイの木馬を埋め込むことにより,攻撃の実現可能性を示す。
論文 参考訳(メタデータ) (2023-04-17T16:24:48Z) - FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases [50.065022493142116]
バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。
FreeEagleは、複雑なバックドア攻撃を効果的に検出できる最初のデータフリーバックドア検出方法である。
論文 参考訳(メタデータ) (2023-02-28T11:31:29Z) - BEAGLE: Forensics of Deep Learning Backdoor Attack for Better Defense [26.314275611787984]
攻撃法医学は、従来のサイバー攻撃に対する重要な対策である。
ディープラーニングのバックドア攻撃は、従来のサイバー攻撃と同様の脅威モデルを持つ。
本稿では,新しいバックドア法医学手法を提案する。
論文 参考訳(メタデータ) (2023-01-16T02:59:40Z) - Marksman Backdoor: Backdoor Attacks with Arbitrary Target Class [17.391987602738606]
近年、機械学習モデルはバックドア攻撃に弱いことが示されている。
この論文は、マークスマン(Marksman)と呼ばれるより強力なペイロードを持つ、新しいバックドア攻撃を利用する。
提案するフレームワークは,複数のベンチマークデータセットにおいてクリーンデータ性能を維持しつつ,高い攻撃性能を実現することを実証的に示す。
論文 参考訳(メタデータ) (2022-10-17T15:46:57Z) - An Adaptive Black-box Defense against Trojan Attacks (TrojDef) [5.880596125802611]
トロイジャンバックドア(Trojan backdoor)は、ニューラルネットワーク(NN)分類器に対する中毒攻撃である。
我々は,NNの前方通過のみが可能な,より実用的なブラックボックスディフェンスTrojDefを提案する。
TrojDefは最先端の防御を著しく上回り、異なる設定で非常に安定している。
論文 参考訳(メタデータ) (2022-09-05T01:54:44Z) - MM-BD: Post-Training Detection of Backdoor Attacks with Arbitrary
Backdoor Pattern Types Using a Maximum Margin Statistic [27.62279831135902]
本稿では,任意の種類のバックドア埋め込みによるバックドア攻撃を検出するポストトレーニングディフェンスを提案する。
我々の検出器は正当なクリーンなサンプルを一切必要とせず、任意の数のソースクラスでバックドア攻撃を効率的に検出することができる。
論文 参考訳(メタデータ) (2022-05-13T21:32:24Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - An Embarrassingly Simple Approach for Trojan Attack in Deep Neural
Networks [59.42357806777537]
トロイの木馬攻撃は、ハッカーが挿入した隠れトリガーパターンに依存する、デプロイされたディープニューラルネットワーク(DNN)を攻撃することを目的としている。
そこで本研究では,有毒データセットの再学習モデルによりトロイの木馬の挙動を注入する,従来と異なる学習自由攻撃手法を提案する。
提案したTrojanNetには,(1)小さなトリガパターンによって起動し,他の信号に対してサイレントを維持する,(2)モデルに依存しない,ほとんどのDNNに注入可能な,(3)攻撃シナリオを劇的に拡張する,(3)訓練不要のメカニズムは従来のトロイの木馬攻撃方法と比較して大規模なトレーニング作業の削減など,いくつかの優れた特性がある。
論文 参考訳(メタデータ) (2020-06-15T04:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。