論文の概要: Model X-ray:Detect Backdoored Models via Decision Boundary
- arxiv url: http://arxiv.org/abs/2402.17465v1
- Date: Tue, 27 Feb 2024 12:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:24:00.699706
- Title: Model X-ray:Detect Backdoored Models via Decision Boundary
- Title(参考訳): モデルX線:決定境界によるバックドアモデルの検出
- Authors: Yanghao Su, Jie Zhang, Ting Xu, Tianwei Zhang, Weiming Zhang, Nenghai
Yu
- Abstract要約: ディープニューラルネットワーク(DNN)はさまざまな産業に革命をもたらし、機械学習・アズ・ア・サービス(ML)の台頭につながった。
DNNはバックドア攻撃の影響を受けやすいため、アプリケーションに重大なリスクが生じる。
本稿では,決定境界の解析を通じて,MLの新しいバックドア検出手法であるModel X-rayを提案する。
- 参考スコア(独自算出の注目度): 66.41173675107886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have revolutionized various industries, leading
to the rise of Machine Learning as a Service (MLaaS). In this paradigm,
well-trained models are typically deployed through APIs. However, DNNs are
susceptible to backdoor attacks, which pose significant risks to their
applications. This vulnerability necessitates a method for users to ascertain
whether an API is compromised before usage. Although many backdoor detection
methods have been developed, they often operate under the assumption that the
defender has access to specific information such as details of the attack, soft
predictions from the model API, and even the knowledge of the model parameters,
limiting their practicality in MLaaS scenarios. To address it, in this paper,
we begin by presenting an intriguing observation: the decision boundary of the
backdoored model exhibits a greater degree of closeness than that of the clean
model. Simultaneously, if only one single label is infected, a larger portion
of the regions will be dominated by the attacked label. Building upon this
observation, we propose Model X-ray, a novel backdoor detection approach for
MLaaS through the analysis of decision boundaries. Model X-ray can not only
identify whether the target API is infected by backdoor attacks but also
determine the target attacked label under the all-to-one attack strategy.
Importantly, it accomplishes this solely by the hard prediction of clean
inputs, regardless of any assumptions about attacks and prior knowledge of the
training details of the model. Extensive experiments demonstrated that Model
X-ray can be effective for MLaaS across diverse backdoor attacks, datasets, and
architectures.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、さまざまな産業に革命をもたらし、MLaaS(Machine Learning as a Service)の台頭につながった。
このパラダイムでは、よく訓練されたモデルは一般的にAPIを通じてデプロイされます。
しかし、DNNはバックドア攻撃の影響を受けやすく、アプリケーションに重大なリスクをもたらす。
この脆弱性は、使用前にAPIが悪用されているかどうかを確認する方法を必要とする。
多くのバックドア検出方法が開発されているが、ディフェンダーが攻撃の詳細、モデルAPIからのソフトな予測、さらにはモデルパラメータの知識といった特定の情報にアクセスでき、MLaaSシナリオでの実用性を制限するという仮定の下で運用されることが多い。
そこで本論文では, バックドアモデルの決定境界は, クリーンモデルよりも密接度が高いという興味深い観察結果から始める。
同時に、1つのラベルしか感染しない場合、攻撃されたラベルが領域の大部分を占めることになる。
そこで本研究では,mlaasにおける新しいバックドア検出手法であるmodel x-rayを提案する。
Model X-rayは、ターゲットAPIがバックドアアタックに感染しているかどうかを識別するだけでなく、オールツーワンアタック戦略の下で攻撃対象ラベルを決定する。
重要なことは、攻撃に関する仮定やモデルのトレーニング詳細に関する事前知識に関係なく、クリーンな入力のハード予測によってのみこれを達成します。
大規模な実験により、モデルX線はさまざまなバックドア攻撃、データセット、アーキテクチャにわたってMLaaSに有効であることが示された。
関連論文リスト
- Evaluating the Effectiveness of Attack-Agnostic Features for Morphing Attack Detection [20.67964977754179]
モーフィング攻撃検出(MAD)における画像表現の可能性について検討する。
ガウス混合モデル(GMM)によるボナフィド特性の分布をモデル化し,抽出した特徴量と一級検出値に基づいて単純な2次線形SVMを訓練し,教師付き検出器を開発する。
以上の結果から,攻撃非依存の特徴は,ほとんどのシナリオにおいて従来の教師付き・一級検知器よりも優れた形態的攻撃を効果的に検出できることが示唆された。
論文 参考訳(メタデータ) (2024-10-22T08:27:43Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Backdoor Attack against One-Class Sequential Anomaly Detection Models [10.020488631167204]
そこで我々は,新たなバックドア攻撃戦略を提案することによって,深部連続異常検出モデルを提案する。
攻撃アプローチは2つの主要なステップ、トリガー生成とバックドアインジェクションから構成される。
2つの確立された1クラスの異常検出モデルにバックドアを注入することにより,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-15T19:19:54Z) - DisDet: Exploring Detectability of Backdoor Attack on Diffusion Models [23.502100653704446]
いくつかの先駆的な研究は、バックドア攻撃に対する拡散モデルの脆弱性を示している。
本稿では,バックドア拡散モデルに対する有毒音入力の検出可能性について検討する。
有害な入力ノイズを効果的に識別できる低コストトリガー検出機構を提案する。
次に、攻撃側から同じ問題を研究するためにさらに一歩踏み出し、無意味なトリガーを学習できるバックドア攻撃戦略を提案します。
論文 参考訳(メタデータ) (2024-02-05T05:46:31Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Adversarial Robustness Assessment of NeuroEvolution Approaches [1.237556184089774]
CIFAR-10画像分類タスクにおける2つのNeuroEvolutionアプローチにより得られたモデルのロバスト性を評価する。
以上の結果から,進化したモデルが反復的手法で攻撃されると,その精度は通常0に低下するか0に近づきます。
これらの技法のいくつかは、元の入力に付加された摂動を悪化させ、頑丈さを損なう可能性がある。
論文 参考訳(メタデータ) (2022-07-12T10:40:19Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Model Extraction and Defenses on Generative Adversarial Networks [0.9442139459221782]
生成敵ネットワーク(GAN)に対するモデル抽出攻撃の実現可能性について検討する。
本稿では,GANモデルの実用性とセキュリティのトレードオフを考慮した効果的な防衛手法を提案する。
論文 参考訳(メタデータ) (2021-01-06T14:36:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。