論文の概要: Game of Trojans: Adaptive Adversaries Against Output-based
Trojaned-Model Detectors
- arxiv url: http://arxiv.org/abs/2402.08695v1
- Date: Mon, 12 Feb 2024 20:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 18:20:53.444017
- Title: Game of Trojans: Adaptive Adversaries Against Output-based
Trojaned-Model Detectors
- Title(参考訳): game of trojans: 出力ベースのトロイの木馬モデル検出器に対する適応的な敵意
- Authors: Dinuka Sahabandu, Xiaojun Xu, Arezoo Rajabi, Luyao Niu, Bhaskar
Ramasubramanian, Bo Li, Radha Poovendran
- Abstract要約: 我々は、Trojaned DNNを再訓練し、SOTA出力に基づくTrojanedモデル検出器を認識した適応逆解析を行う。
このような敵は,(1) トリガー埋め込みとクリーンなサンプルの両方において高い精度を確保でき,(2) バイパス検出が可能であることを示す。
- 参考スコア(独自算出の注目度): 11.825974900783844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose and analyze an adaptive adversary that can retrain a Trojaned DNN
and is also aware of SOTA output-based Trojaned model detectors. We show that
such an adversary can ensure (1) high accuracy on both trigger-embedded and
clean samples and (2) bypass detection. Our approach is based on an observation
that the high dimensionality of the DNN parameters provides sufficient degrees
of freedom to simultaneously achieve these objectives. We also enable SOTA
detectors to be adaptive by allowing retraining to recalibrate their
parameters, thus modeling a co-evolution of parameters of a Trojaned model and
detectors. We then show that this co-evolution can be modeled as an iterative
game, and prove that the resulting (optimal) solution of this interactive game
leads to the adversary successfully achieving the above objectives. In
addition, we provide a greedy algorithm for the adversary to select a minimum
number of input samples for embedding triggers. We show that for cross-entropy
or log-likelihood loss functions used by the DNNs, the greedy algorithm
provides provable guarantees on the needed number of trigger-embedded input
samples. Extensive experiments on four diverse datasets -- MNIST, CIFAR-10,
CIFAR-100, and SpeechCommand -- reveal that the adversary effectively evades
four SOTA output-based Trojaned model detectors: MNTD, NeuralCleanse, STRIP,
and TABOR.
- Abstract(参考訳): 我々は,Trojaned DNNを再訓練し,SOTA出力に基づくTrojanedモデル検出器を意識した適応逆解析法を提案し,解析する。
その結果,(1)トリガー埋め込みとクリーンサンプルの双方において高い精度が確保され,(2)バイパス検出が可能となった。
提案手法は,DNNパラメータの高次元性が,これらの目的を同時に達成するための十分な自由度を提供するという観測に基づいている。
また,SOTA検出器のパラメータの再調整を可能とし,トロイの木馬モデルと検出器のパラメータの共進化をモデル化することで,SOTA検出器の適応を可能にする。
次に、この共進化を反復ゲームとしてモデル化できることを示し、このインタラクティブゲームの結果として得られる(最適)解が、上記の目的を達成するための敵となることを証明した。
さらに,埋め込みトリガの最小限の入力サンプルを選択するために,敵に対する欲求アルゴリズムを提案する。
dnnが使用するクロスエントロピーやログライクな損失関数に対して,greedyアルゴリズムは,トリガー埋め込みされた入力サンプル数を保証可能な保証を提供する。
mnist, cifar-10, cifar-100, speechcommandの4つの多様なデータセットに関する広範な実験により、敵はmntd, neuralcleanse, strip, taborの4つのsota出力ベースのトロイの木馬モデル検出器を効果的に回避できることが判明した。
関連論文リスト
- Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - TEN-GUARD: Tensor Decomposition for Backdoor Attack Detection in Deep
Neural Networks [3.489779105594534]
本稿では,ネットワークアクティベーションに適用した2つのテンソル分解法によるバックドア検出手法を提案する。
これは、複数のモデルを同時に分析する機能など、既存の検出方法と比較して、多くの利点がある。
その結果,現在の最先端手法よりも,バックドアネットワークを高精度かつ効率的に検出できることがわかった。
論文 参考訳(メタデータ) (2024-01-06T03:08:28Z) - PerD: Perturbation Sensitivity-based Neural Trojan Detection Framework
on NLP Applications [21.854581570954075]
トロイの木馬の攻撃は被害者にバックドアを埋め込み、入力空間のトリガーによって起動される。
本稿では,入力に特別な摂動を導入する際に,モデル出力のずれを解析し,モデルレベルのトロイの木馬検出フレームワークを提案する。
提案手法の有効性を,TrojAIが作成したNLPモデルのデータセットとTrojaned NLPモデルの公開データセットに示す。
論文 参考訳(メタデータ) (2022-08-08T22:50:03Z) - An Adaptive Black-box Backdoor Detection Method for Deep Neural Networks [25.593824693347113]
ディープニューラルネットワーク(DNN)は、医療診断や自律運転など、さまざまな分野において前例のないパフォーマンスを示している。
それらは、ステルスシートリガーによって制御され、活性化されるニューラルトロイの木馬攻撃(NT)に対して脆弱である。
本稿では,事前訓練したトロイの木馬が展開前にトロイの木馬に検出されたかどうかを検査するロバストで適応的なトロイの木馬検出手法を提案する。
論文 参考訳(メタデータ) (2022-04-08T23:41:19Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - Towards Adversarial Patch Analysis and Certified Defense against Crowd
Counting [61.99564267735242]
安全クリティカルな監視システムの重要性から、群衆のカウントは多くの注目を集めています。
近年の研究では、ディープニューラルネットワーク(DNN)の手法が敵の攻撃に弱いことが示されている。
群衆カウントモデルのロバスト性を評価するために,Momentumを用いた攻撃戦略としてAdversarial Patch Attackを提案する。
論文 参考訳(メタデータ) (2021-04-22T05:10:55Z) - Targeted Attack against Deep Neural Networks via Flipping Limited Weight
Bits [55.740716446995805]
我々は,悪質な目的で展開段階におけるモデルパラメータを修飾する新しい攻撃パラダイムについて検討する。
私たちのゴールは、特定のサンプルをサンプル修正なしでターゲットクラスに誤分類することです。
整数プログラミングにおける最新の手法を利用することで、このBIP問題を連続最適化問題として等価に再構成する。
論文 参考訳(メタデータ) (2021-02-21T03:13:27Z) - TAD: Trigger Approximation based Black-box Trojan Detection for AI [16.741385045881113]
ディープニューラルネットワーク(DNN)は、医療診断や自律運転など、さまざまな分野において前例のないパフォーマンスを示している。
トリガーによって制御され、活性化されるトロイの木馬攻撃(NT)に対して脆弱である。
我々は、事前訓練されたAIモデルがトロイの木馬に配備される前に検査されたかどうかを検査するロバストなトロイの木馬検出手法を提案する。
論文 参考訳(メタデータ) (2021-02-03T00:49:50Z) - Detecting Trojaned DNNs Using Counterfactual Attributions [15.988574580713328]
このようなモデルは通常、典型的な入力で振る舞うが、トロイの木馬のトリガーで入力の特定の誤った予測を生成する。
我々のアプローチは、トリガーの動作がトリガーパターンで活性化される少数のゴーストニューロンに依存するという新しい観察に基づいている。
我々はこの情報をディープセットエンコーダを用いてトロイの木馬検出に利用する。
論文 参考訳(メタデータ) (2020-12-03T21:21:33Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。