論文の概要: Detecting Trojaned DNNs Using Counterfactual Attributions
- arxiv url: http://arxiv.org/abs/2012.02275v1
- Date: Thu, 3 Dec 2020 21:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 16:56:16.974160
- Title: Detecting Trojaned DNNs Using Counterfactual Attributions
- Title(参考訳): 因果属性を用いたトロイの木馬DNNの検出
- Authors: Karan Sikka, Indranil Sur, Susmit Jha, Anirban Roy and Ajay Divakaran
- Abstract要約: このようなモデルは通常、典型的な入力で振る舞うが、トロイの木馬のトリガーで入力の特定の誤った予測を生成する。
我々のアプローチは、トリガーの動作がトリガーパターンで活性化される少数のゴーストニューロンに依存するという新しい観察に基づいている。
我々はこの情報をディープセットエンコーダを用いてトロイの木馬検出に利用する。
- 参考スコア(独自算出の注目度): 15.988574580713328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We target the problem of detecting Trojans or backdoors in DNNs. Such models
behave normally with typical inputs but produce specific incorrect predictions
for inputs poisoned with a Trojan trigger. Our approach is based on a novel
observation that the trigger behavior depends on a few ghost neurons that
activate on trigger pattern and exhibit abnormally higher relative attribution
for wrong decisions when activated. Further, these trigger neurons are also
active on normal inputs of the target class. Thus, we use counterfactual
attributions to localize these ghost neurons from clean inputs and then
incrementally excite them to observe changes in the model's accuracy. We use
this information for Trojan detection by using a deep set encoder that enables
invariance to the number of model classes, architecture, etc. Our approach is
implemented in the TrinityAI tool that exploits the synergies between
trustworthiness, resilience, and interpretability challenges in deep learning.
We evaluate our approach on benchmarks with high diversity in model
architectures, triggers, etc. We show consistent gains (+10%) over
state-of-the-art methods that rely on the susceptibility of the DNN to specific
adversarial attacks, which in turn requires strong assumptions on the nature of
the Trojan attack.
- Abstract(参考訳): DNNにおけるトロイの木馬やバックドアの発見を目標としている。
このようなモデルは通常、典型的な入力で振る舞うが、トロイの木馬のトリガーで汚染された入力の特定の誤った予測を生成する。
我々のアプローチは、トリガー行動がトリガーパターンを活性化し、活性化時の間違った決定に対する異常な高い相対的帰属を示すいくつかのゴーストニューロンに依存するという新しい観察に基づいている。
さらに、これらのトリガーニューロンは標的クラスの正常な入力でも活動する。
そこで我々は,これらのゴーストニューロンをクリーンな入力から局所化し,それを漸進的に励起し,モデルの精度の変化を観察する。
我々はこの情報を、モデルクラスやアーキテクチャの数に不変なディープセットエンコーダを用いてトロイの木馬検出に利用する。
私たちのアプローチは、ディープラーニングにおける信頼性、レジリエンス、解釈可能性の課題間の相乗効果を活用するTrinityAIツールに実装されています。
モデルアーキテクチャやトリガなどにおいて、高い多様性を持つベンチマークに対するアプローチを評価します。
我々は、特定の敵攻撃に対するdnnの感受性に依存する最先端の手法に対して、一貫性のある利益(+10%)を示し、トロイの木馬攻撃の性質に強い仮定を必要とする。
関連論文リスト
- EmoBack: Backdoor Attacks Against Speaker Identification Using Emotional Prosody [25.134723977429076]
話者識別(SI)は、話者の発話に基づいて話者の身元を決定する。
これまでの研究は、SIディープニューラルネットワーク(DNN)がバックドア攻撃に対して脆弱であることを示している。
これは、SI DNNのバックドア攻撃に対する脆弱性を、話者の感情的韻律を用いて探求する最初の作品である。
論文 参考訳(メタデータ) (2024-08-02T11:00:12Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - PerD: Perturbation Sensitivity-based Neural Trojan Detection Framework
on NLP Applications [21.854581570954075]
トロイの木馬の攻撃は被害者にバックドアを埋め込み、入力空間のトリガーによって起動される。
本稿では,入力に特別な摂動を導入する際に,モデル出力のずれを解析し,モデルレベルのトロイの木馬検出フレームワークを提案する。
提案手法の有効性を,TrojAIが作成したNLPモデルのデータセットとTrojaned NLPモデルの公開データセットに示す。
論文 参考訳(メタデータ) (2022-08-08T22:50:03Z) - An Adaptive Black-box Backdoor Detection Method for Deep Neural Networks [25.593824693347113]
ディープニューラルネットワーク(DNN)は、医療診断や自律運転など、さまざまな分野において前例のないパフォーマンスを示している。
それらは、ステルスシートリガーによって制御され、活性化されるニューラルトロイの木馬攻撃(NT)に対して脆弱である。
本稿では,事前訓練したトロイの木馬が展開前にトロイの木馬に検出されたかどうかを検査するロバストで適応的なトロイの木馬検出手法を提案する。
論文 参考訳(メタデータ) (2022-04-08T23:41:19Z) - Trigger Hunting with a Topological Prior for Trojan Detection [16.376009231934884]
本稿では、トロイの木馬検出の問題、すなわちトロイの木馬モデルを特定することに取り組む。
一般的なアプローチの1つはリバースエンジニアリングであり、モデルの予測を操作することによってクリーンなイメージ上のトリガを復元する。
リバースエンジニアリングアプローチの大きな課題の1つは、トリガーの巨大な検索スペースである。
多様性やトポロジカル・シンプルさといった革新的な先例を提案し、適切なトリガを見つける可能性を高めるだけでなく、見出されたトリガの品質を向上させる。
論文 参考訳(メタデータ) (2021-10-15T19:47:00Z) - TAD: Trigger Approximation based Black-box Trojan Detection for AI [16.741385045881113]
ディープニューラルネットワーク(DNN)は、医療診断や自律運転など、さまざまな分野において前例のないパフォーマンスを示している。
トリガーによって制御され、活性化されるトロイの木馬攻撃(NT)に対して脆弱である。
我々は、事前訓練されたAIモデルがトロイの木馬に配備される前に検査されたかどうかを検査するロバストなトロイの木馬検出手法を提案する。
論文 参考訳(メタデータ) (2021-02-03T00:49:50Z) - Cassandra: Detecting Trojaned Networks from Adversarial Perturbations [92.43879594465422]
多くの場合、事前トレーニングされたモデルは、トロイの木馬の振る舞いをモデルに挿入するためにトレーニングパイプラインを中断したかもしれないベンダーから派生している。
本稿では,事前学習したモデルがトロイの木馬か良馬かを検証する手法を提案する。
本手法は,ニューラルネットワークの指紋を,ネットワーク勾配から学習した逆方向の摂動の形でキャプチャする。
論文 参考訳(メタデータ) (2020-07-28T19:00:40Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - Graph Backdoor [53.70971502299977]
GTAはグラフニューラルネットワーク(GNN)に対する最初のバックドア攻撃である。
GTAは、トポロジカル構造と記述的特徴の両方を含む特定の部分グラフとしてトリガーを定義する。
トランスダクティブ(ノード分類など)とインダクティブ(グラフ分類など)の両方のタスクに対してインスタンス化することができる。
論文 参考訳(メタデータ) (2020-06-21T19:45:30Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。