論文の概要: One-shot Neural Backdoor Erasing via Adversarial Weight Masking
- arxiv url: http://arxiv.org/abs/2207.04497v1
- Date: Sun, 10 Jul 2022 16:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 13:58:56.482599
- Title: One-shot Neural Backdoor Erasing via Adversarial Weight Masking
- Title(参考訳): 対向的重みマスキングによるワンショット神経バックドア消去
- Authors: Shuwen Chai and Jinghui Chen
- Abstract要約: Adversarial Weight Masking (AWM)は、ワンショット設定でも神経バックドアを消去できる新しい方法である。
AWMは、さまざまな利用可能なトレーニングデータセットサイズに対する他の最先端メソッドに対する浄化効果を大幅に改善することができる。
- 参考スコア(独自算出の注目度): 8.345632941376673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show that despite achieving high accuracy on a number of
real-world applications, deep neural networks (DNNs) can be backdoored: by
injecting triggered data samples into the training dataset, the adversary can
mislead the trained model into classifying any test data to the target class as
long as the trigger pattern is presented. To nullify such backdoor threats,
various methods have been proposed. Particularly, a line of research aims to
purify the potentially compromised model. However, one major limitation of this
line of work is the requirement to access sufficient original training data:
the purifying performance is a lot worse when the available training data is
limited. In this work, we propose Adversarial Weight Masking (AWM), a novel
method capable of erasing the neural backdoors even in the one-shot setting.
The key idea behind our method is to formulate this into a min-max optimization
problem: first, adversarially recover the trigger patterns and then (soft) mask
the network weights that are sensitive to the recovered patterns. Comprehensive
evaluations of several benchmark datasets suggest that AWM can largely improve
the purifying effects over other state-of-the-art methods on various available
training dataset sizes.
- Abstract(参考訳): 最近の研究では、多くの現実世界のアプリケーションで高い精度を達成しているにもかかわらず、ディープニューラルネットワーク(DNN)はバックドア化可能である。トレーニングデータセットにトリガデータサンプルを注入することで、敵はトレーニングされたモデルを誤解して、トリガーパターンが提示される限り、ターゲットクラスにテストデータを分類することができる。
このようなバックドアの脅威を無効化するために、様々な方法が提案されている。
特に、研究のラインは、潜在的に妥協されたモデルを浄化することを目的としている。
しかし、この一連の作業の1つの大きな制限は、十分な元のトレーニングデータにアクセスすることの必要性である。
本研究では,1ショット設定でも神経バックドアを消去できる新しい手法であるAdversarial Weight Masking (AWM)を提案する。
まず、逆向きにトリガーパターンを復元し、その後(ソフト)、回収されたパターンに敏感なネットワーク重みをマスクする。
いくつかのベンチマークデータセットの総合的な評価は、AWMが様々な利用可能なトレーニングデータセットサイズに対する他の最先端メソッドに対する浄化効果を大幅に改善できることを示唆している。
関連論文リスト
- Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Augmented Neural Fine-Tuning for Efficient Backdoor Purification [16.74156528484354]
最近の研究では、様々なバックドア攻撃に対するディープニューラルネットワーク(DNN)の脆弱性が明らかにされている。
神経活動の最適再編成を目的としたニューラルマスクファインチューニング(NFT)を提案する。
NFTはトリガー合成プロセスを緩和し、逆探索モジュールの要求をなくす。
論文 参考訳(メタデータ) (2024-07-14T02:36:54Z) - TEN-GUARD: Tensor Decomposition for Backdoor Attack Detection in Deep
Neural Networks [3.489779105594534]
本稿では,ネットワークアクティベーションに適用した2つのテンソル分解法によるバックドア検出手法を提案する。
これは、複数のモデルを同時に分析する機能など、既存の検出方法と比較して、多くの利点がある。
その結果,現在の最先端手法よりも,バックドアネットワークを高精度かつ効率的に検出できることがわかった。
論文 参考訳(メタデータ) (2024-01-06T03:08:28Z) - A Data-Centric Approach for Improving Adversarial Training Through the
Lens of Out-of-Distribution Detection [0.4893345190925178]
複雑なアルゴリズムを適用して効果を緩和するのではなく, トレーニング手順から直接ハードサンプルを検出し, 除去することを提案する。
SVHN と CIFAR-10 データセットを用いた結果,計算コストの増大を伴わずに対角訓練の改善に本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-01-25T08:13:50Z) - Adversarial training with informed data selection [53.19381941131439]
アドリアリトレーニングは、これらの悪意のある攻撃からネットワークを守るための最も効率的なソリューションである。
本研究では,ミニバッチ学習に適用すべきデータ選択戦略を提案する。
シミュレーションの結果,ロバスト性および標準精度に関して良好な妥協が得られることがわかった。
論文 参考訳(メタデータ) (2023-01-07T12:09:50Z) - One-Pixel Shortcut: on the Learning Preference of Deep Neural Networks [28.502489028888608]
Unlearnable Example (ULE) は、DNNのトレーニングのための不正使用からデータを保護することを目的としている。
逆行訓練では、誤り最小化ノイズの非学習性は著しく低下する。
本稿では,各画像の1ピクセルのみを摂動させ,データセットを学習不能にする,新しいモデルフリー手法であるemphOne-Pixel Shortcutを提案する。
論文 参考訳(メタデータ) (2022-05-24T15:17:52Z) - A Deep Marginal-Contrastive Defense against Adversarial Attacks on 1D
Models [3.9962751777898955]
ディープラーニングアルゴリズムは最近、脆弱性のために攻撃者がターゲットとしている。
非連続的深層モデルは、いまだに敵対的な攻撃に対して頑健ではない。
本稿では,特徴を特定のマージン下に置くことによって予測を容易にする新しい目的/損失関数を提案する。
論文 参考訳(メタデータ) (2020-12-08T20:51:43Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。