Fugu-MT 論文翻訳(概要): Model X-ray:Detect Backdoored Models via Decision Boundary

論文の概要: Model X-ray:Detect Backdoored Models via Decision Boundary

arxiv url: http://arxiv.org/abs/2402.17465v1
Date: Tue, 27 Feb 2024 12:42:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 16:24:00.699706
Title: Model X-ray:Detect Backdoored Models via Decision Boundary
Title（参考訳）: モデルX線:決定境界によるバックドアモデルの検出
Authors: Yanghao Su, Jie Zhang, Ting Xu, Tianwei Zhang, Weiming Zhang, Nenghai Yu
Abstract要約: ディープニューラルネットワーク(DNN)はさまざまな産業に革命をもたらし、機械学習・アズ・ア・サービス(ML)の台頭につながった。 DNNはバックドア攻撃の影響を受けやすいため、アプリケーションに重大なリスクが生じる。本稿では,決定境界の解析を通じて,MLの新しいバックドア検出手法であるModel X-rayを提案する。
参考スコア（独自算出の注目度）: 66.41173675107886
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep neural networks (DNNs) have revolutionized various industries, leading to the rise of Machine Learning as a Service (MLaaS). In this paradigm, well-trained models are typically deployed through APIs. However, DNNs are susceptible to backdoor attacks, which pose significant risks to their applications. This vulnerability necessitates a method for users to ascertain whether an API is compromised before usage. Although many backdoor detection methods have been developed, they often operate under the assumption that the defender has access to specific information such as details of the attack, soft predictions from the model API, and even the knowledge of the model parameters, limiting their practicality in MLaaS scenarios. To address it, in this paper, we begin by presenting an intriguing observation: the decision boundary of the backdoored model exhibits a greater degree of closeness than that of the clean model. Simultaneously, if only one single label is infected, a larger portion of the regions will be dominated by the attacked label. Building upon this observation, we propose Model X-ray, a novel backdoor detection approach for MLaaS through the analysis of decision boundaries. Model X-ray can not only identify whether the target API is infected by backdoor attacks but also determine the target attacked label under the all-to-one attack strategy. Importantly, it accomplishes this solely by the hard prediction of clean inputs, regardless of any assumptions about attacks and prior knowledge of the training details of the model. Extensive experiments demonstrated that Model X-ray can be effective for MLaaS across diverse backdoor attacks, datasets, and architectures.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)は、さまざまな産業に革命をもたらし、MLaaS(Machine Learning as a Service)の台頭につながった。このパラダイムでは、よく訓練されたモデルは一般的にAPIを通じてデプロイされます。しかし、DNNはバックドア攻撃の影響を受けやすく、アプリケーションに重大なリスクをもたらす。この脆弱性は、使用前にAPIが悪用されているかどうかを確認する方法を必要とする。多くのバックドア検出方法が開発されているが、ディフェンダーが攻撃の詳細、モデルAPIからのソフトな予測、さらにはモデルパラメータの知識といった特定の情報にアクセスでき、MLaaSシナリオでの実用性を制限するという仮定の下で運用されることが多い。そこで本論文では, バックドアモデルの決定境界は, クリーンモデルよりも密接度が高いという興味深い観察結果から始める。同時に、1つのラベルしか感染しない場合、攻撃されたラベルが領域の大部分を占めることになる。そこで本研究では,mlaasにおける新しいバックドア検出手法であるmodel x-rayを提案する。 Model X-rayは、ターゲットAPIがバックドアアタックに感染しているかどうかを識別するだけでなく、オールツーワンアタック戦略の下で攻撃対象ラベルを決定する。重要なことは、攻撃に関する仮定やモデルのトレーニング詳細に関する事前知識に関係なく、クリーンな入力のハード予測によってのみこれを達成します。大規模な実験により、モデルX線はさまざまなバックドア攻撃、データセット、アーキテクチャにわたってMLaaSに有効であることが示された。

関連論文リスト

BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文参考訳（メタデータ） (2025-07-14T17:13:06Z)
Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。特に,攻撃目標は,モデル予測を特定の範囲に制限することである。我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文参考訳（メタデータ） (2025-06-05T08:29:19Z)
Variance-Based Defense Against Blended Backdoor Attacks [0.0]
バックドア攻撃は、AIモデルをターゲットにした微妙ながら効果的なサイバー攻撃のクラスである。本稿では,与えられたデータセット上でモデルをトレーニングし,有毒なクラスを検出し,攻撃トリガの重要部分を抽出する新しい防御手法を提案する。
論文参考訳（メタデータ） (2025-06-02T09:01:35Z)
Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文参考訳（メタデータ） (2025-05-22T17:11:58Z)
Dynamic Attention Analysis for Backdoor Detection in Text-to-Image Diffusion Models [70.03122709795122]
従来のバックドア検出手法は主にバックドアサンプルの静的特徴に焦点を当てていた。本研究では、動的注意分析(DEA)と呼ばれる新しいバックドア検出視点を導入し、これらの動的特徴がバックドア検出の指標となることを示す。我々の手法は既存の検出方法を大きく上回り、平均F1スコアは79.49%、AUCは87.67%に達した。
論文参考訳（メタデータ） (2025-04-29T07:59:35Z)
Evaluating the Effectiveness of Attack-Agnostic Features for Morphing Attack Detection [20.67964977754179]
モーフィング攻撃検出(MAD)における画像表現の可能性について検討する。ガウス混合モデル(GMM)によるボナフィド特性の分布をモデル化し,抽出した特徴量と一級検出値に基づいて単純な2次線形SVMを訓練し,教師付き検出器を開発する。以上の結果から,攻撃非依存の特徴は,ほとんどのシナリオにおいて従来の教師付き・一級検知器よりも優れた形態的攻撃を効果的に検出できることが示唆された。
論文参考訳（メタデータ） (2024-10-22T08:27:43Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文参考訳（メタデータ） (2024-08-23T01:53:36Z)
Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文参考訳（メタデータ） (2024-06-27T02:31:03Z)
Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文参考訳（メタデータ） (2024-06-14T02:39:43Z)
UFID: A Unified Framework for Input-level Backdoor Detection on Diffusion Models [19.46962670935554]
拡散モデルはバックドア攻撃に弱い。 UFIDと呼ばれる拡散モデルに基づくブラックボックス入力レベルのバックドア検出フレームワークを提案する。本手法は,検出効率と実行時間効率において高い性能を実現する。
論文参考訳（メタデータ） (2024-04-01T13:21:05Z)
Backdoor Attack against One-Class Sequential Anomaly Detection Models [10.020488631167204]
そこで我々は,新たなバックドア攻撃戦略を提案することによって,深部連続異常検出モデルを提案する。攻撃アプローチは2つの主要なステップ、トリガー生成とバックドアインジェクションから構成される。 2つの確立された1クラスの異常検出モデルにバックドアを注入することにより,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-02-15T19:19:54Z)
DisDet: Exploring Detectability of Backdoor Attack on Diffusion Models [23.502100653704446]
いくつかの先駆的な研究は、バックドア攻撃に対する拡散モデルの脆弱性を示している。本稿では,バックドア拡散モデルに対する有毒音入力の検出可能性について検討する。有害な入力ノイズを効果的に識別できる低コストトリガー検出機構を提案する。次に、攻撃側から同じ問題を研究するためにさらに一歩踏み出し、無意味なトリガーを学習できるバックドア攻撃戦略を提案します。
論文参考訳（メタデータ） (2024-02-05T05:46:31Z)
Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文参考訳（メタデータ） (2022-11-02T17:05:45Z)
Adversarial Robustness Assessment of NeuroEvolution Approaches [1.237556184089774]
CIFAR-10画像分類タスクにおける2つのNeuroEvolutionアプローチにより得られたモデルのロバスト性を評価する。以上の結果から,進化したモデルが反復的手法で攻撃されると,その精度は通常0に低下するか0に近づきます。これらの技法のいくつかは、元の入力に付加された摂動を悪化させ、頑丈さを損なう可能性がある。
論文参考訳（メタデータ） (2022-07-12T10:40:19Z)
Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文参考訳（メタデータ） (2021-03-06T05:50:29Z)
Model Extraction and Defenses on Generative Adversarial Networks [0.9442139459221782]
生成敵ネットワーク(GAN)に対するモデル抽出攻撃の実現可能性について検討する。本稿では,GANモデルの実用性とセキュリティのトレードオフを考慮した効果的な防衛手法を提案する。
論文参考訳（メタデータ） (2021-01-06T14:36:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。