論文の概要: Model X-ray:Detecting Backdoored Models via Decision Boundary
- arxiv url: http://arxiv.org/abs/2402.17465v2
- Date: Sun, 20 Oct 2024 15:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:55.211463
- Title: Model X-ray:Detecting Backdoored Models via Decision Boundary
- Title(参考訳): モデルX線:決定境界によるバックドアモデルの検出
- Authors: Yanghao Su, Jie Zhang, Ting Xu, Tianwei Zhang, Weiming Zhang, Nenghai Yu,
- Abstract要約: バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
- 参考スコア(独自算出の注目度): 62.675297418960355
- License:
- Abstract: Backdoor attacks pose a significant security vulnerability for deep neural networks (DNNs), enabling them to operate normally on clean inputs but manipulate predictions when specific trigger patterns occur. Currently, post-training backdoor detection approaches often operate under the assumption that the defender has knowledge of the attack information, logit output from the model, and knowledge of the model parameters. In contrast, our approach functions as a lightweight diagnostic scanning tool offering interpretability and visualization. By accessing the model to obtain hard labels, we construct decision boundaries within the convex combination of three samples. We present an intriguing observation of two phenomena in backdoored models: a noticeable shrinking of areas dominated by clean samples and a significant increase in the surrounding areas dominated by target labels. Leveraging this observation, we propose Model X-ray, a novel backdoor detection approach based on the analysis of illustrated two-dimensional (2D) decision boundaries. Our approach includes two strategies focused on the decision areas dominated by clean samples and the concentration of label distribution, and it can not only identify whether the target model is infected but also determine the target attacked label under the all-to-one attack strategy. Importantly, it accomplishes this solely by the predicted hard labels of clean inputs, regardless of any assumptions about attacks and prior knowledge of the training details of the model. Extensive experiments demonstrated that Model X-ray has outstanding effectiveness and efficiency across diverse backdoor attacks, datasets, and architectures. Besides, ablation studies on hyperparameters and more attack strategies and discussions are also provided.
- Abstract(参考訳): バックドア攻撃はディープニューラルネットワーク(DNN)に重大なセキュリティ上の脆弱性をもたらし、クリーンな入力で正常に動作させるが、特定のトリガーパターンが発生した時に予測を操作することができる。
現在、訓練後のバックドア検出アプローチは、ディフェンダーが攻撃情報、モデルからのログ出力、モデルパラメータの知識を持っているという仮定の下で動作していることが多い。
対照的に、我々のアプローチは、解釈可能性と可視化を提供する軽量な診断スキャンツールとして機能する。
ハードラベルを得るためにモデルにアクセスすることで、3つのサンプルの凸結合内で決定境界を構築する。
クリーンサンプルが支配する領域の顕著な縮小と,ターゲットラベルが支配する周辺領域の顕著な増加という,バックドアモデルにおける2つの現象の興味深い観察結果を示す。
そこで本研究では,2次元2次元決定境界解析に基づく新しいバックドア検出手法であるModel X-rayを提案する。
本手法は, クリーンサンプルが支配する決定領域とラベル分布の集中度に着目した2つの戦略を含む。
重要なのは、攻撃に関する仮定やモデルのトレーニング詳細に関する事前の知識に関係なく、クリーンな入力の予測されたハードラベルによってのみこれを達成します。
大規模な実験により、モデルX線は様々なバックドアアタック、データセット、アーキテクチャにまたがって優れた効果と効率性を持つことが示された。
さらに、ハイパーパラメーターに関するアブレーション研究や、さらなる攻撃戦略や議論も提供される。
関連論文リスト
- Evaluating the Effectiveness of Attack-Agnostic Features for Morphing Attack Detection [20.67964977754179]
モーフィング攻撃検出(MAD)における画像表現の可能性について検討する。
ガウス混合モデル(GMM)によるボナフィド特性の分布をモデル化し,抽出した特徴量と一級検出値に基づいて単純な2次線形SVMを訓練し,教師付き検出器を開発する。
以上の結果から,攻撃非依存の特徴は,ほとんどのシナリオにおいて従来の教師付き・一級検知器よりも優れた形態的攻撃を効果的に検出できることが示唆された。
論文 参考訳(メタデータ) (2024-10-22T08:27:43Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Backdoor Attack against One-Class Sequential Anomaly Detection Models [10.020488631167204]
そこで我々は,新たなバックドア攻撃戦略を提案することによって,深部連続異常検出モデルを提案する。
攻撃アプローチは2つの主要なステップ、トリガー生成とバックドアインジェクションから構成される。
2つの確立された1クラスの異常検出モデルにバックドアを注入することにより,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-15T19:19:54Z) - DisDet: Exploring Detectability of Backdoor Attack on Diffusion Models [23.502100653704446]
いくつかの先駆的な研究は、バックドア攻撃に対する拡散モデルの脆弱性を示している。
本稿では,バックドア拡散モデルに対する有毒音入力の検出可能性について検討する。
有害な入力ノイズを効果的に識別できる低コストトリガー検出機構を提案する。
次に、攻撃側から同じ問題を研究するためにさらに一歩踏み出し、無意味なトリガーを学習できるバックドア攻撃戦略を提案します。
論文 参考訳(メタデータ) (2024-02-05T05:46:31Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Adversarial Robustness Assessment of NeuroEvolution Approaches [1.237556184089774]
CIFAR-10画像分類タスクにおける2つのNeuroEvolutionアプローチにより得られたモデルのロバスト性を評価する。
以上の結果から,進化したモデルが反復的手法で攻撃されると,その精度は通常0に低下するか0に近づきます。
これらの技法のいくつかは、元の入力に付加された摂動を悪化させ、頑丈さを損なう可能性がある。
論文 参考訳(メタデータ) (2022-07-12T10:40:19Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Model Extraction and Defenses on Generative Adversarial Networks [0.9442139459221782]
生成敵ネットワーク(GAN)に対するモデル抽出攻撃の実現可能性について検討する。
本稿では,GANモデルの実用性とセキュリティのトレードオフを考慮した効果的な防衛手法を提案する。
論文 参考訳(メタデータ) (2021-01-06T14:36:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。