論文の概要: Online Defense of Trojaned Models using Misattributions
- arxiv url: http://arxiv.org/abs/2103.15918v1
- Date: Mon, 29 Mar 2021 19:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:07:55.634340
- Title: Online Defense of Trojaned Models using Misattributions
- Title(参考訳): ミストリビューションを用いたトロイの木馬モデルのオンライン防御
- Authors: Panagiota Kiourti, Wenchao Li, Anirban Roy, Karan Sikka, and Susmit
Jha
- Abstract要約: 本稿では,推論時におけるディープニューラルネットワーク上のニューラルトロイの木馬検出手法を提案する。
MNIST, Fashion MNIST, German Traffic Sign Recognition Benchmark で訓練されたモデルを含む,いくつかのベンチマークに対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 18.16378666013071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new approach to detecting neural Trojans on Deep Neural
Networks during inference. This approach is based on monitoring the inference
of a machine learning model, computing the attribution of the model's decision
on different features of the input, and then statistically analyzing these
attributions to detect whether an input sample contains the Trojan trigger. The
anomalous attributions, aka misattributions, are then accompanied by
reverse-engineering of the trigger to evaluate whether the input sample is
truly poisoned with a Trojan trigger. We evaluate our approach on several
benchmarks, including models trained on MNIST, Fashion MNIST, and German
Traffic Sign Recognition Benchmark, and demonstrate the state of the art
detection accuracy.
- Abstract(参考訳): 本稿では,推論中にディープニューラルネットワーク上でニューラルトロイの木馬を検出する新しい手法を提案する。
このアプローチは、機械学習モデルの推論を監視し、入力の異なる特徴に対するモデルの決定の属性を計算し、これらの属性を統計的に分析して、入力サンプルがトロイの木馬トリガを含むかどうかを検出する。
異常帰属、いわゆる誤帰帰属はトリガーのリバースエンジニアリングを伴い、インプットサンプルが本当にトロイジャントリガーで毒されているかどうかを評価する。
我々はMNIST, Fashion MNIST, German Traffic Sign Recognition Benchmarkで訓練されたモデルを含む,いくつかのベンチマークに対するアプローチを評価し, 検出精度の検証を行った。
関連論文リスト
- Solving Trojan Detection Competitions with Linear Weight Classification [1.24275433420322]
既存のデータセットやドメインの多くで驚くほどうまく機能する検出器を導入します。
我々はこのアルゴリズムを、トロイの木馬検出ベンチマークとドメインの多種多様なセットで評価する。
論文 参考訳(メタデータ) (2024-11-05T19:00:34Z) - Risk-Aware and Explainable Framework for Ensuring Guaranteed Coverage in Evolving Hardware Trojan Detection [2.6396287656676733]
高リスクで敏感なドメインでは、小さな誤分類さえ受け入れることができない。
本稿では,新たに提案した共形生成対向ネットワークを用いて,ハードウェアトロイの木馬を生成する。
提案手法は、合成および実チップレベルのベンチマークの両方で検証されている。
論文 参考訳(メタデータ) (2023-10-14T03:30:21Z) - Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection
Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。
本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。
本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文 参考訳(メタデータ) (2023-06-06T14:23:34Z) - FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases [50.065022493142116]
バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。
FreeEagleは、複雑なバックドア攻撃を効果的に検出できる最初のデータフリーバックドア検出方法である。
論文 参考訳(メタデータ) (2023-02-28T11:31:29Z) - PerD: Perturbation Sensitivity-based Neural Trojan Detection Framework
on NLP Applications [21.854581570954075]
トロイの木馬の攻撃は被害者にバックドアを埋め込み、入力空間のトリガーによって起動される。
本稿では,入力に特別な摂動を導入する際に,モデル出力のずれを解析し,モデルレベルのトロイの木馬検出フレームワークを提案する。
提案手法の有効性を,TrojAIが作成したNLPモデルのデータセットとTrojaned NLPモデルの公開データセットに示す。
論文 参考訳(メタデータ) (2022-08-08T22:50:03Z) - Adversarial Examples Detection with Bayesian Neural Network [57.185482121807716]
本稿では,ランダムな成分が予測器の滑らかさを向上できるという観測によって動機づけられた敵の例を検出するための新しい枠組みを提案する。
本稿では,BATer を略した新しいベイズ対向型サンプル検出器を提案し,対向型サンプル検出の性能を向上させる。
論文 参考訳(メタデータ) (2021-05-18T15:51:24Z) - Detecting Trojaned DNNs Using Counterfactual Attributions [15.988574580713328]
このようなモデルは通常、典型的な入力で振る舞うが、トロイの木馬のトリガーで入力の特定の誤った予測を生成する。
我々のアプローチは、トリガーの動作がトリガーパターンで活性化される少数のゴーストニューロンに依存するという新しい観察に基づいている。
我々はこの情報をディープセットエンコーダを用いてトロイの木馬検出に利用する。
論文 参考訳(メタデータ) (2020-12-03T21:21:33Z) - Cassandra: Detecting Trojaned Networks from Adversarial Perturbations [92.43879594465422]
多くの場合、事前トレーニングされたモデルは、トロイの木馬の振る舞いをモデルに挿入するためにトレーニングパイプラインを中断したかもしれないベンダーから派生している。
本稿では,事前学習したモデルがトロイの木馬か良馬かを検証する手法を提案する。
本手法は,ニューラルネットワークの指紋を,ネットワーク勾配から学習した逆方向の摂動の形でキャプチャする。
論文 参考訳(メタデータ) (2020-07-28T19:00:40Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。