論文の概要: TAD: Trigger Approximation based Black-box Trojan Detection for AI
- arxiv url: http://arxiv.org/abs/2102.01815v1
- Date: Wed, 3 Feb 2021 00:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 17:43:46.830522
- Title: TAD: Trigger Approximation based Black-box Trojan Detection for AI
- Title(参考訳): TAD:AIのトリガ近似に基づくブラックボックストロイの木馬検出
- Authors: Xinqiao Zhang, Huili Chen and Farinaz Koushanfar
- Abstract要約: ディープニューラルネットワーク(DNN)は、医療診断や自律運転など、さまざまな分野において前例のないパフォーマンスを示している。
トリガーによって制御され、活性化されるトロイの木馬攻撃(NT)に対して脆弱である。
我々は、事前訓練されたAIモデルがトロイの木馬に配備される前に検査されたかどうかを検査するロバストなトロイの木馬検出手法を提案する。
- 参考スコア(独自算出の注目度): 16.741385045881113
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An emerging amount of intelligent applications have been developed with the
surge of Machine Learning (ML). Deep Neural Networks (DNNs) have demonstrated
unprecedented performance across various fields such as medical diagnosis and
autonomous driving. While DNNs are widely employed in security-sensitive
fields, they are identified to be vulnerable to Neural Trojan (NT) attacks that
are controlled and activated by the stealthy trigger. We call this vulnerable
model adversarial artificial intelligence (AI). In this paper, we target to
design a robust Trojan detection scheme that inspects whether a pre-trained AI
model has been Trojaned before its deployment. Prior works are oblivious of the
intrinsic property of trigger distribution and try to reconstruct the trigger
pattern using simple heuristics, i.e., stimulating the given model to incorrect
outputs. As a result, their detection time and effectiveness are limited. We
leverage the observation that the pixel trigger typically features spatial
dependency and propose TAD, the first trigger approximation based Trojan
detection framework that enables fast and scalable search of the trigger in the
input space. Furthermore, TAD can also detect Trojans embedded in the feature
space where certain filter transformations are used to activate the Trojan. We
perform extensive experiments to investigate the performance of the TAD across
various datasets and ML models. Empirical results show that TAD achieves a
ROC-AUC score of 0:91 on the public TrojAI dataset 1 and the average detection
time per model is 7:1 minutes.
- Abstract(参考訳): 機械学習(ML)の台頭とともに、新たな量のインテリジェントアプリケーションが開発されている。
深層ニューラルネットワーク(DNN)は、医療診断や自動運転など、さまざまな分野で前例のない性能を発揮しています。
dnnはセキュリティに敏感な分野で広く使われているが、ステルストリガーによって制御され活性化される神経トロイの木馬(nt)攻撃に対して脆弱である。
この脆弱なモデルをAI(AI)と呼んでいます。
本稿では,事前学習したAIモデルがトロイの木馬に配備される前に検査されるロバストなトロイの木馬検出手法を設計することを目的とする。
先行研究はトリガー分布の本質的性質を欠き、単純なヒューリスティック、すなわち与えられたモデルを間違った出力に刺激することでトリガーパターンを再構築しようとする。
その結果、検出時間と有効性は限られている。
ピクセルトリガは通常空間依存性を特徴とする観察を活用し、入力空間におけるトリガの高速かつスケーラブルな探索を可能にする最初のトリガ近似ベースのトロイの木馬検出フレームワークであるTADを提案する。
さらに、TADは、特定のフィルタ変換を用いてトロイの木を活性化する特徴空間に埋め込まれたトロイの木を検出できる。
私たちは、さまざまなデータセットとMLモデルにわたるTADのパフォーマンスを調査するための広範な実験を行います。
実験の結果,TADはパブリックなTrojAIデータセット1においてLOC-AUCスコア0:91を達成し,平均検出時間は7:1分であった。
関連論文リスト
- FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases [50.065022493142116]
バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。
FreeEagleは、複雑なバックドア攻撃を効果的に検出できる最初のデータフリーバックドア検出方法である。
論文 参考訳(メタデータ) (2023-02-28T11:31:29Z) - PerD: Perturbation Sensitivity-based Neural Trojan Detection Framework
on NLP Applications [21.854581570954075]
トロイの木馬の攻撃は被害者にバックドアを埋め込み、入力空間のトリガーによって起動される。
本稿では,入力に特別な摂動を導入する際に,モデル出力のずれを解析し,モデルレベルのトロイの木馬検出フレームワークを提案する。
提案手法の有効性を,TrojAIが作成したNLPモデルのデータセットとTrojaned NLPモデルの公開データセットに示す。
論文 参考訳(メタデータ) (2022-08-08T22:50:03Z) - An Adaptive Black-box Backdoor Detection Method for Deep Neural Networks [25.593824693347113]
ディープニューラルネットワーク(DNN)は、医療診断や自律運転など、さまざまな分野において前例のないパフォーマンスを示している。
それらは、ステルスシートリガーによって制御され、活性化されるニューラルトロイの木馬攻撃(NT)に対して脆弱である。
本稿では,事前訓練したトロイの木馬が展開前にトロイの木馬に検出されたかどうかを検査するロバストで適応的なトロイの木馬検出手法を提案する。
論文 参考訳(メタデータ) (2022-04-08T23:41:19Z) - Trigger Hunting with a Topological Prior for Trojan Detection [16.376009231934884]
本稿では、トロイの木馬検出の問題、すなわちトロイの木馬モデルを特定することに取り組む。
一般的なアプローチの1つはリバースエンジニアリングであり、モデルの予測を操作することによってクリーンなイメージ上のトリガを復元する。
リバースエンジニアリングアプローチの大きな課題の1つは、トリガーの巨大な検索スペースである。
多様性やトポロジカル・シンプルさといった革新的な先例を提案し、適切なトリガを見つける可能性を高めるだけでなく、見出されたトリガの品質を向上させる。
論文 参考訳(メタデータ) (2021-10-15T19:47:00Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z) - Detecting Trojaned DNNs Using Counterfactual Attributions [15.988574580713328]
このようなモデルは通常、典型的な入力で振る舞うが、トロイの木馬のトリガーで入力の特定の誤った予測を生成する。
我々のアプローチは、トリガーの動作がトリガーパターンで活性化される少数のゴーストニューロンに依存するという新しい観察に基づいている。
我々はこの情報をディープセットエンコーダを用いてトロイの木馬検出に利用する。
論文 参考訳(メタデータ) (2020-12-03T21:21:33Z) - Practical Detection of Trojan Neural Networks: Data-Limited and
Data-Free Cases [87.69818690239627]
本稿では,データスカース方式におけるトロイの木馬ネットワーク(トロイの木馬網)検出の問題点について検討する。
本稿では,データ限定型TrojanNet検出器(TND)を提案する。
さらに,データサンプルにアクセスせずにTrojanNetを検出できるデータフリーTNDを提案する。
論文 参考訳(メタデータ) (2020-07-31T02:00:38Z) - Cassandra: Detecting Trojaned Networks from Adversarial Perturbations [92.43879594465422]
多くの場合、事前トレーニングされたモデルは、トロイの木馬の振る舞いをモデルに挿入するためにトレーニングパイプラインを中断したかもしれないベンダーから派生している。
本稿では,事前学習したモデルがトロイの木馬か良馬かを検証する手法を提案する。
本手法は,ニューラルネットワークの指紋を,ネットワーク勾配から学習した逆方向の摂動の形でキャプチャする。
論文 参考訳(メタデータ) (2020-07-28T19:00:40Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。