論文の概要: Odyssey: Creation, Analysis and Detection of Trojan Models
- arxiv url: http://arxiv.org/abs/2007.08142v2
- Date: Tue, 8 Dec 2020 08:09:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 23:15:14.836741
- Title: Odyssey: Creation, Analysis and Detection of Trojan Models
- Title(参考訳): Odyssey: トロイの木馬モデルの作成, 解析, 検出
- Authors: Marzieh Edraki, Nazmul Karim, Nazanin Rahnavard, Ajmal Mian, Mubarak
Shah
- Abstract要約: トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
- 参考スコア(独自算出の注目度): 91.13959405645959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Along with the success of deep neural network (DNN) models, rise the threats
to the integrity of these models. A recent threat is the Trojan attack where an
attacker interferes with the training pipeline by inserting triggers into some
of the training samples and trains the model to act maliciously only for
samples that contain the trigger. Since the knowledge of triggers is privy to
the attacker, detection of Trojan networks is challenging. Existing Trojan
detectors make strong assumptions about the types of triggers and attacks. We
propose a detector that is based on the analysis of the intrinsic DNN
properties; that are affected due to the Trojaning process. For a comprehensive
analysis, we develop Odysseus, the most diverse dataset to date with over 3,000
clean and Trojan models. Odysseus covers a large spectrum of attacks; generated
by leveraging the versatility in trigger designs and source to target class
mappings. Our analysis results show that Trojan attacks affect the classifier
margin and shape of decision boundary around the manifold of clean data.
Exploiting these two factors, we propose an efficient Trojan detector that
operates without any knowledge of the attack and significantly outperforms
existing methods. Through a comprehensive set of experiments we demonstrate the
efficacy of the detector on cross model architectures, unseen Triggers and
regularized models.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)モデルの成功に伴い、これらのモデルの完全性に対する脅威が高まる。
最近の脅威は、攻撃者がトレーニングパイプラインにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようモデルを訓練するトロイの木馬攻撃である。
トリガーの知識は攻撃者に優先されるため、トロイの木馬ネットワークの検出は困難である。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
本稿では,固有DNN特性の分析に基づく検出器を提案する。
包括的分析のために,3000以上のクリーンモデルとトロイの木馬を用いた,これまでで最も多様なデータセットであるOdysseusを開発した。
odysseusは、トリガー設計とターゲットクラスのマッピングのソースの汎用性を活用することで生成される、さまざまな攻撃を扱っている。
解析の結果, トロイの木馬攻撃は, クリーンデータの多様体周辺の決定境界の分類マージンと形状に影響を及ぼすことがわかった。
これら2つの要因を探索し,攻撃の知識のない効率的なトロイの木馬検出装置を提案し,既存手法を著しく上回る性能を示した。
総合的な実験を通して,検出器のクロスモデルアーキテクチャ,未認識トリガー,正規化モデルに対する効果を実証する。
関連論文リスト
- Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets [74.12197473591128]
拡散モデルに対する効果的なトロイ・アタック(TrojDiff)を提案する。
特に, トロイの木馬拡散過程における新たな遷移を設計し, 対立対象をバイアス付きガウス分布に拡散させる。
そこで,TrojDiffは,異なる種類のトリガを用いて,異なる攻撃対象下で常に高い攻撃性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-10T08:01:23Z) - PerD: Perturbation Sensitivity-based Neural Trojan Detection Framework
on NLP Applications [21.854581570954075]
トロイの木馬の攻撃は被害者にバックドアを埋め込み、入力空間のトリガーによって起動される。
本稿では,入力に特別な摂動を導入する際に,モデル出力のずれを解析し,モデルレベルのトロイの木馬検出フレームワークを提案する。
提案手法の有効性を,TrojAIが作成したNLPモデルのデータセットとTrojaned NLPモデルの公開データセットに示す。
論文 参考訳(メタデータ) (2022-08-08T22:50:03Z) - Topological Detection of Trojaned Neural Networks [10.559903139528252]
トロイの木馬攻撃は、攻撃者がモデルの動きを密かに操作する際に起こる。
トロイの木馬模型を特徴付ける微妙な構造偏差が見つかる。
トロイの木馬モデルのロバスト検出のための戦略を考案する。
論文 参考訳(メタデータ) (2021-06-11T15:48:16Z) - Detecting Trojaned DNNs Using Counterfactual Attributions [15.988574580713328]
このようなモデルは通常、典型的な入力で振る舞うが、トロイの木馬のトリガーで入力の特定の誤った予測を生成する。
我々のアプローチは、トリガーの動作がトリガーパターンで活性化される少数のゴーストニューロンに依存するという新しい観察に基づいている。
我々はこの情報をディープセットエンコーダを用いてトロイの木馬検出に利用する。
論文 参考訳(メタデータ) (2020-12-03T21:21:33Z) - Cassandra: Detecting Trojaned Networks from Adversarial Perturbations [92.43879594465422]
多くの場合、事前トレーニングされたモデルは、トロイの木馬の振る舞いをモデルに挿入するためにトレーニングパイプラインを中断したかもしれないベンダーから派生している。
本稿では,事前学習したモデルがトロイの木馬か良馬かを検証する手法を提案する。
本手法は,ニューラルネットワークの指紋を,ネットワーク勾配から学習した逆方向の摂動の形でキャプチャする。
論文 参考訳(メタデータ) (2020-07-28T19:00:40Z) - An Embarrassingly Simple Approach for Trojan Attack in Deep Neural
Networks [59.42357806777537]
トロイの木馬攻撃は、ハッカーが挿入した隠れトリガーパターンに依存する、デプロイされたディープニューラルネットワーク(DNN)を攻撃することを目的としている。
そこで本研究では,有毒データセットの再学習モデルによりトロイの木馬の挙動を注入する,従来と異なる学習自由攻撃手法を提案する。
提案したTrojanNetには,(1)小さなトリガパターンによって起動し,他の信号に対してサイレントを維持する,(2)モデルに依存しない,ほとんどのDNNに注入可能な,(3)攻撃シナリオを劇的に拡張する,(3)訓練不要のメカニズムは従来のトロイの木馬攻撃方法と比較して大規模なトレーニング作業の削減など,いくつかの優れた特性がある。
論文 参考訳(メタデータ) (2020-06-15T04:58:28Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。