論文の概要: Mitigating Backdoor Attack Via Prerequisite Transformation
- arxiv url: http://arxiv.org/abs/2306.01983v1
- Date: Sat, 3 Jun 2023 02:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 21:04:42.250825
- Title: Mitigating Backdoor Attack Via Prerequisite Transformation
- Title(参考訳): 前提条件変換によるバックドア攻撃の緩和
- Authors: Han Gao
- Abstract要約: 本稿では,バックドア攻撃に対する新たな対策を提案する。
トリガーによってカバーされる領域の特徴をトリガーの特徴として、残りの領域を通常の特徴として言及する。
- 参考スコア(独自算出の注目度): 6.086428675292244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, with the successful application of DNN in fields such as NLP
and CV, its security has also received widespread attention. (Author) proposed
the method of backdoor attack in Badnet. Switch implanted backdoor into the
model by poisoning the training samples. The model with backdoor did not
exhibit any abnormalities on the normal validation sample set, but in the input
with trigger, they were mistakenly classified as the attacker's designated
category or randomly classified as a different category from the ground truth,
This attack method seriously threatens the normal application of DNN in real
life, such as autonomous driving, object detection, etc.This article proposes a
new method to combat backdoor attacks. We refer to the features in the area
covered by the trigger as trigger features, and the remaining areas as normal
features. By introducing prerequisite calculation conditions during the
training process, these conditions have little impact on normal features and
trigger features, and can complete the training of a standard backdoor model.
The model trained under these prerequisite calculation conditions can, In the
verification set D'val with the same premise calculation conditions, the
performance is consistent with that of the ordinary backdoor model. However, in
the verification set Dval without the premise calculation conditions, the
verification accuracy decreases very little (7%~12%), while the attack success
rate (ASR) decreases from 90% to about 8%.Author call this method Prerequisite
Transformation(PT).
- Abstract(参考訳): 近年,NLPやCVなどの分野へのDNNの適用が成功し,セキュリティも注目されている。
(著者)はbadnetのバックドア攻撃方法を提案した。
トレーニングサンプルに毒を加えて、モデルにバックドアを埋め込んだ。
バックドア付きモデルは、正常な検証サンプルセットに異常は見られなかったが、トリガーによる入力では、攻撃者の指定したカテゴリに誤って分類されたり、地上真理とは異なるカテゴリにランダムに分類されたりする。この攻撃方法は、自動運転や物体検出など、現実におけるdnnの正常な応用を深刻な脅威にさらしている。この記事では、バックドア攻撃に対処する新しい方法を提案する。
トリガーによってカバーされる領域の特徴をトリガーとして、残りの領域を通常の特徴として参照する。
トレーニングプロセス中に前提条件の計算条件を導入することで、これらの条件は通常の特徴やトリガー機能にほとんど影響を与えず、標準バックドアモデルのトレーニングを完了することができる。
これらの前提条件の下で訓練されたモデルは、同じ前提計算条件を持つ検証集合 d'val において、通常のバックドアモデルと性能が一致することができる。
しかし、前提計算条件のない検証セットDvalでは、検証精度は非常に低く(7%〜12%)、攻撃成功率(ASR)は90%から約8%に低下する。
著者はこのメソッドをPrerequisite Transformation(PT)と呼ぶ。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Evolutionary Trigger Detection and Lightweight Model Repair Based Backdoor Defense [10.310546695762467]
ディープニューラルネットワーク(DNN)は、自律運転や顔認識など、多くの分野で広く利用されている。
DNNモデルのバックドアは、トリガーによる有毒な入力によってアクティベートされ、誤った予測につながる。
進化的トリガ検出と軽量モデル修復に基づく効率的なバックドア防御を提案する。
論文 参考訳(メタデータ) (2024-07-07T14:50:59Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Watch Out for Your Guidance on Generation! Exploring Conditional Backdoor Attacks against Large Language Models [8.348993615202138]
大規模な言語モデル(LLM)に対するバックドア攻撃は、通常、入力インスタンスに固定されたトリガと、トリガクエリに対する特定のレスポンスを設定する。
生成条件の特定によって誘導されるLSMに対する新しい中毒パラダイムを提案する。
中毒モデルは通常、正常/他の生成条件下では出力に対して、目標生成条件下では出力に対して有害となる。
論文 参考訳(メタデータ) (2024-04-23T07:19:20Z) - Backdoor Attack against One-Class Sequential Anomaly Detection Models [10.020488631167204]
そこで我々は,新たなバックドア攻撃戦略を提案することによって,深部連続異常検出モデルを提案する。
攻撃アプローチは2つの主要なステップ、トリガー生成とバックドアインジェクションから構成される。
2つの確立された1クラスの異常検出モデルにバックドアを注入することにより,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-15T19:19:54Z) - Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - SATBA: An Invisible Backdoor Attack Based On Spatial Attention [7.405457329942725]
バックドア攻撃には、隠れたトリガーパターンを含むデータセットに対するDeep Neural Network(DNN)のトレーニングが含まれる。
既存のバックドア攻撃のほとんどは、2つの重大な欠点に悩まされている。
空間的注意とU-netモデルを用いてこれらの制限を克服するSATBAという新しいバックドアアタックを提案する。
論文 参考訳(メタデータ) (2023-02-25T10:57:41Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。