Fugu-MT 論文翻訳(概要): Model X-ray:Detecting Backdoored Models via Decision Boundary

論文の概要: Model X-ray:Detecting Backdoored Models via Decision Boundary

arxiv url: http://arxiv.org/abs/2402.17465v2
Date: Sun, 20 Oct 2024 15:19:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.062829
Title: Model X-ray:Detecting Backdoored Models via Decision Boundary
Title（参考訳）: モデルX線:決定境界によるバックドアモデルの検出
Authors: Yanghao Su, Jie Zhang, Ting Xu, Tianwei Zhang, Weiming Zhang, Nenghai Yu,
Abstract要約: バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
参考スコア（独自算出の注目度）: 62.675297418960355
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Backdoor attacks pose a significant security vulnerability for deep neural networks (DNNs), enabling them to operate normally on clean inputs but manipulate predictions when specific trigger patterns occur. Currently, post-training backdoor detection approaches often operate under the assumption that the defender has knowledge of the attack information, logit output from the model, and knowledge of the model parameters. In contrast, our approach functions as a lightweight diagnostic scanning tool offering interpretability and visualization. By accessing the model to obtain hard labels, we construct decision boundaries within the convex combination of three samples. We present an intriguing observation of two phenomena in backdoored models: a noticeable shrinking of areas dominated by clean samples and a significant increase in the surrounding areas dominated by target labels. Leveraging this observation, we propose Model X-ray, a novel backdoor detection approach based on the analysis of illustrated two-dimensional (2D) decision boundaries. Our approach includes two strategies focused on the decision areas dominated by clean samples and the concentration of label distribution, and it can not only identify whether the target model is infected but also determine the target attacked label under the all-to-one attack strategy. Importantly, it accomplishes this solely by the predicted hard labels of clean inputs, regardless of any assumptions about attacks and prior knowledge of the training details of the model. Extensive experiments demonstrated that Model X-ray has outstanding effectiveness and efficiency across diverse backdoor attacks, datasets, and architectures. Besides, ablation studies on hyperparameters and more attack strategies and discussions are also provided.
Abstract（参考訳）: バックドア攻撃はディープニューラルネットワーク(DNN)に重大なセキュリティ上の脆弱性をもたらし、クリーンな入力で正常に動作させるが、特定のトリガーパターンが発生した時に予測を操作することができる。現在、訓練後のバックドア検出アプローチは、ディフェンダーが攻撃情報、モデルからのログ出力、モデルパラメータの知識を持っているという仮定の下で動作していることが多い。対照的に、我々のアプローチは、解釈可能性と可視化を提供する軽量な診断スキャンツールとして機能する。ハードラベルを得るためにモデルにアクセスすることで、3つのサンプルの凸結合内で決定境界を構築する。クリーンサンプルが支配する領域の顕著な縮小と,ターゲットラベルが支配する周辺領域の顕著な増加という,バックドアモデルにおける2つの現象の興味深い観察結果を示す。そこで本研究では,2次元2次元決定境界解析に基づく新しいバックドア検出手法であるModel X-rayを提案する。本手法は, クリーンサンプルが支配する決定領域とラベル分布の集中度に着目した2つの戦略を含む。重要なのは、攻撃に関する仮定やモデルのトレーニング詳細に関する事前の知識に関係なく、クリーンな入力の予測されたハードラベルによってのみこれを達成します。大規模な実験により、モデルX線は様々なバックドアアタック、データセット、アーキテクチャにまたがって優れた効果と効率性を持つことが示された。さらに、ハイパーパラメーターに関するアブレーション研究や、さらなる攻撃戦略や議論も提供される。

関連論文リスト

BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文参考訳（メタデータ） (2025-07-14T17:13:06Z)
Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。特に,攻撃目標は,モデル予測を特定の範囲に制限することである。我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文参考訳（メタデータ） (2025-06-05T08:29:19Z)
Variance-Based Defense Against Blended Backdoor Attacks [0.0]
バックドア攻撃は、AIモデルをターゲットにした微妙ながら効果的なサイバー攻撃のクラスである。本稿では,与えられたデータセット上でモデルをトレーニングし,有毒なクラスを検出し,攻撃トリガの重要部分を抽出する新しい防御手法を提案する。
論文参考訳（メタデータ） (2025-06-02T09:01:35Z)
Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文参考訳（メタデータ） (2025-05-22T17:11:58Z)
Dynamic Attention Analysis for Backdoor Detection in Text-to-Image Diffusion Models [70.03122709795122]
従来のバックドア検出手法は主にバックドアサンプルの静的特徴に焦点を当てていた。本研究では、動的注意分析(DEA)と呼ばれる新しいバックドア検出視点を導入し、これらの動的特徴がバックドア検出の指標となることを示す。我々の手法は既存の検出方法を大きく上回り、平均F1スコアは79.49%、AUCは87.67%に達した。
論文参考訳（メタデータ） (2025-04-29T07:59:35Z)
Evaluating the Effectiveness of Attack-Agnostic Features for Morphing Attack Detection [20.67964977754179]
モーフィング攻撃検出(MAD)における画像表現の可能性について検討する。ガウス混合モデル(GMM)によるボナフィド特性の分布をモデル化し,抽出した特徴量と一級検出値に基づいて単純な2次線形SVMを訓練し,教師付き検出器を開発する。以上の結果から,攻撃非依存の特徴は,ほとんどのシナリオにおいて従来の教師付き・一級検知器よりも優れた形態的攻撃を効果的に検出できることが示唆された。
論文参考訳（メタデータ） (2024-10-22T08:27:43Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文参考訳（メタデータ） (2024-08-23T01:53:36Z)
Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文参考訳（メタデータ） (2024-06-27T02:31:03Z)
Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文参考訳（メタデータ） (2024-06-14T02:39:43Z)
UFID: A Unified Framework for Input-level Backdoor Detection on Diffusion Models [19.46962670935554]
拡散モデルはバックドア攻撃に弱い。 UFIDと呼ばれる拡散モデルに基づくブラックボックス入力レベルのバックドア検出フレームワークを提案する。本手法は,検出効率と実行時間効率において高い性能を実現する。
論文参考訳（メタデータ） (2024-04-01T13:21:05Z)
Backdoor Attack against One-Class Sequential Anomaly Detection Models [10.020488631167204]
そこで我々は,新たなバックドア攻撃戦略を提案することによって,深部連続異常検出モデルを提案する。攻撃アプローチは2つの主要なステップ、トリガー生成とバックドアインジェクションから構成される。 2つの確立された1クラスの異常検出モデルにバックドアを注入することにより,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-02-15T19:19:54Z)
DisDet: Exploring Detectability of Backdoor Attack on Diffusion Models [23.502100653704446]
いくつかの先駆的な研究は、バックドア攻撃に対する拡散モデルの脆弱性を示している。本稿では,バックドア拡散モデルに対する有毒音入力の検出可能性について検討する。有害な入力ノイズを効果的に識別できる低コストトリガー検出機構を提案する。次に、攻撃側から同じ問題を研究するためにさらに一歩踏み出し、無意味なトリガーを学習できるバックドア攻撃戦略を提案します。
論文参考訳（メタデータ） (2024-02-05T05:46:31Z)
Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文参考訳（メタデータ） (2022-11-02T17:05:45Z)
Adversarial Robustness Assessment of NeuroEvolution Approaches [1.237556184089774]
CIFAR-10画像分類タスクにおける2つのNeuroEvolutionアプローチにより得られたモデルのロバスト性を評価する。以上の結果から,進化したモデルが反復的手法で攻撃されると,その精度は通常0に低下するか0に近づきます。これらの技法のいくつかは、元の入力に付加された摂動を悪化させ、頑丈さを損なう可能性がある。
論文参考訳（メタデータ） (2022-07-12T10:40:19Z)
Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文参考訳（メタデータ） (2021-03-06T05:50:29Z)
Model Extraction and Defenses on Generative Adversarial Networks [0.9442139459221782]
生成敵ネットワーク(GAN)に対するモデル抽出攻撃の実現可能性について検討する。本稿では,GANモデルの実用性とセキュリティのトレードオフを考慮した効果的な防衛手法を提案する。
論文参考訳（メタデータ） (2021-01-06T14:36:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。