Fugu-MT 論文翻訳(概要): Universal Soldier: Using Universal Adversarial Perturbations for Detecting Backdoor Attacks

論文の概要: Universal Soldier: Using Universal Adversarial Perturbations for Detecting Backdoor Attacks

arxiv url: http://arxiv.org/abs/2302.00747v3
Date: Thu, 24 Aug 2023 13:27:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-25 18:33:37.113407
Title: Universal Soldier: Using Universal Adversarial Perturbations for Detecting Backdoor Attacks
Title（参考訳）: universal soldier: バックドア攻撃を検出するためにuniversal adversarial perturbationを使用する
Authors: Xiaoyun Xu, Oguzhan Ersoy, Stjepan Picek
Abstract要約: ディープラーニングモデルは、バックドアデータによるトレーニングや、内部ネットワークパラメータの変更によって悪用される。引き金について事前に知ることなく、クリーンモデルとバックドアモデルとを区別することは困難である。 UAPによるバックドア検出(USB)とリバースエンジニアリング潜在的なバックドアトリガのためのUniversal Soldierという新しい手法を提案する。
参考スコア（独自算出の注目度）: 15.917794562400449
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning models achieve excellent performance in numerous machine learning tasks. Yet, they suffer from security-related issues such as adversarial examples and poisoning (backdoor) attacks. A deep learning model may be poisoned by training with backdoored data or by modifying inner network parameters. Then, a backdoored model performs as expected when receiving a clean input, but it misclassifies when receiving a backdoored input stamped with a pre-designed pattern called "trigger". Unfortunately, it is difficult to distinguish between clean and backdoored models without prior knowledge of the trigger. This paper proposes a backdoor detection method by utilizing a special type of adversarial attack, universal adversarial perturbation (UAP), and its similarities with a backdoor trigger. We observe an intuitive phenomenon: UAPs generated from backdoored models need fewer perturbations to mislead the model than UAPs from clean models. UAPs of backdoored models tend to exploit the shortcut from all classes to the target class, built by the backdoor trigger. We propose a novel method called Universal Soldier for Backdoor detection (USB) and reverse engineering potential backdoor triggers via UAPs. Experiments on 345 models trained on several datasets show that USB effectively detects the injected backdoor and provides comparable or better results than state-of-the-art methods.
Abstract（参考訳）: ディープラーニングモデルは、多くの機械学習タスクで優れたパフォーマンスを達成します。しかし、敵の例や毒殺(バックドア)攻撃などセキュリティ関連の問題に苦しんでいる。ディープラーニングモデルは、バックドアデータによるトレーニングや、内部ネットワークパラメータの変更によって悪用される。そして、クリーンな入力を受けると、バックドアモデルが期待通りに実行されるが、「トリガー」と呼ばれる予め設計されたパターンで押されたバックドア入力を受けると誤分類される。残念ながら、トリガーの事前知識なしでは、クリーンモデルとバックドアモデルの区別が難しい。本稿では,特定のタイプの攻撃,uap(universal adversarial perturbation)とバックドアトリガーとの類似性を利用したバックドア検出手法を提案する。バックドアモデルから生成されたUAPは、クリーンモデルからのUAPよりもモデルを誤解させるのに、より少ない摂動を必要とする。バックドアモデルのUAPは、バックドアトリガによって構築されたすべてのクラスからターゲットクラスへのショートカットを利用する傾向がある。 UAPによるバックドア検出(USB)とリバースエンジニアリング潜在的なバックドアトリガのためのUniversal Soldierという新しい手法を提案する。複数のデータセットでトレーニングされた345モデルの実験では、usbが注入されたバックドアを効果的に検出し、最先端の方法と同等あるいは優れた結果を提供することが示された。

関連論文リスト

Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文参考訳（メタデータ） (2026-02-24T15:47:52Z)
Backdoor Token Unlearning: Exposing and Defending Backdoors in Pretrained Language Models [9.995807326278959]
トレーニング期間中にトリガトークンを積極的に検出・中和するバックドアトークンアンラーニング(BTU)と呼ばれる新しい防衛手法を提案する。裏口学習は, 単語埋め込み層において, 裏口トークンパラメータとクリーントークンパラメータの区別を生じさせ, 裏口攻撃の成功は裏口トークンパラメータに大きく依存する。
論文参考訳（メタデータ） (2025-01-05T03:22:13Z)
Unlearn to Relearn Backdoors: Deferred Backdoor Functionality Attacks on Deep Learning Models [6.937795040660591]
バックドア攻撃の新たなパラダイムとして,Deferred Activated Backdoor Functionality (DABF)を紹介した。従来の攻撃とは異なり、DABFは当初バックドアを隠蔽し、起動しても良質な出力を生成する。 DABF攻撃は、マシンラーニングモデルのライフサイクルで一般的なプラクティスを利用して、モデル更新と初期デプロイ後の微調整を実行する。
論文参考訳（メタデータ） (2024-11-10T07:01:53Z)
Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。 EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。 2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文参考訳（メタデータ） (2024-10-25T09:36:04Z)
PureDiffusion: Using Backdoor to Counter Backdoor in Generative Diffusion Models [5.957580737396457]
拡散モデル(DM)は、幅広い生成タスクにおいて最先端の能力を達成した高度なディープラーニングモデルである。近年の研究では、バックドア攻撃に関する脆弱性が示されており、バックドアDMは、バックドアターゲットと呼ばれる指定結果を一貫して生成している。 DMに埋め込まれたバックドアトリガを反転させることで、バックドア攻撃を効率的に検出できる新しいバックドア防御フレームワークであるPureDiffusionを導入する。
論文参考訳（メタデータ） (2024-09-20T23:19:26Z)
Towards Unified Robustness Against Both Backdoor and Adversarial Attacks [31.846262387360767]
ディープニューラルネットワーク(DNN)は、バックドアと敵の攻撃の両方に対して脆弱であることが知られている。本稿では,バックドアと敵の攻撃との間には興味深い関係があることを明らかにする。バックドアと敵の攻撃を同時に防御する新しいプログレッシブ統一防衛アルゴリズムが提案されている。
論文参考訳（メタデータ） (2024-05-28T07:50:00Z)
Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。 PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文参考訳（メタデータ） (2024-05-25T07:52:26Z)
BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input Detection [42.021282816470794]
我々は,Deep Neural Networks(DNN)に対するバックドア攻撃に対する新しい防御法を提案する。私たちの防衛は、モデルの生成方法とは独立して機能する開発後防衛のカテゴリに分類されます。モデル推論におけるバックドア入力をフィルタリングする高精度なバックドア入力検出装置の実現可能性を示す。
論文参考訳（メタデータ） (2023-08-23T21:47:06Z)
Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文参考訳（メタデータ） (2023-05-03T20:31:13Z)
Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文参考訳（メタデータ） (2022-11-02T15:39:19Z)
Check Your Other Door! Establishing Backdoor Attacks in the Frequency Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文参考訳（メタデータ） (2021-09-12T12:44:52Z)
Black-box Detection of Backdoor Attacks with Limited Information and Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文参考訳（メタデータ） (2021-03-24T12:06:40Z)
BAAAN: Backdoor Attacks Against Autoencoder and GAN-Based Machine Learning Models [21.06679566096713]
我々は、マシンラーニングモデル、すなわちバックドア攻撃に対する最も深刻な攻撃の1つを、オートエンコーダとGANの両方に対して探索する。バックドアアタック(英語: backdoor attack)とは、敵が秘密のトリガーによってのみ起動できるターゲットモデルに隠れたバックドアを実装する訓練時間アタックである。バックドア攻撃の適用性をオートエンコーダやGANベースのモデルに拡張する。
論文参考訳（メタデータ） (2020-10-06T20:26:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。