論文の概要: Textual Backdoor Attacks Can Be More Harmful via Two Simple Tricks
- arxiv url: http://arxiv.org/abs/2110.08247v1
- Date: Fri, 15 Oct 2021 17:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 12:34:54.446389
- Title: Textual Backdoor Attacks Can Be More Harmful via Two Simple Tricks
- Title(参考訳): テキストによるバックドア攻撃は、2つの簡単なトリックでより有害になる
- Authors: Yangyi Chen, Fanchao Qi, Zhiyuan Liu, Maosong Sun
- Abstract要約: 本稿では,既存のテキストバックドア攻撃をより有害にするための2つの簡単な手法を見出す。
最初のトリックは、被害者モデルのトレーニング中に毒や清潔なデータを識別するための追加のトレーニングタスクを追加することです。
2つ目は、汚染データに対応する元のクリーンデータを削除するのではなく、すべてのクリーンなトレーニングデータを使用することである。
- 参考スコア(独自算出の注目度): 58.0225587881455
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Backdoor attacks are a kind of emergent security threat in deep learning.
When a deep neural model is injected with a backdoor, it will behave normally
on standard inputs but give adversary-specified predictions once the input
contains specific backdoor triggers. Current textual backdoor attacks have poor
attack performance in some tough situations. In this paper, we find two simple
tricks that can make existing textual backdoor attacks much more harmful. The
first trick is to add an extra training task to distinguish poisoned and clean
data during the training of the victim model, and the second one is to use all
the clean training data rather than remove the original clean data
corresponding to the poisoned data. These two tricks are universally applicable
to different attack models. We conduct experiments in three tough situations
including clean data fine-tuning, low poisoning rate, and label-consistent
attacks. Experimental results show that the two tricks can significantly
improve attack performance. This paper exhibits the great potential harmfulness
of backdoor attacks. All the code and data will be made public to facilitate
further research.
- Abstract(参考訳): バックドア攻撃は、ディープラーニングにおける突発的なセキュリティの脅威だ。
ディープニューラルモデルがバックドアに注入されると、通常の入力で正常に振る舞うが、入力が特定のバックドアトリガーを含むと、逆特定された予測を与える。
現在のテキストバックドア攻撃は、厳しい状況下では攻撃性能が低い。
本稿では,既存のテキストバックドア攻撃をより有害にするための2つの簡単な手法を見出す。
第1のトリックは、被害者モデルのトレーニング中に汚染されたデータを識別するための追加のトレーニングタスクを追加することであり、第2のトリックは、汚染されたデータに対応する元のクリーンデータを削除するのではなく、すべてのクリーントレーニングデータを使用することである。
この2つのトリックは、異なる攻撃モデルに普遍的に適用される。
クリーンデータ微調整,低中毒率,ラベル一貫性攻撃など,3つの厳しい状況下で実験を行った。
実験の結果,この2つの手法は攻撃性能を大幅に向上できることがわかった。
本稿では,バックドア攻撃の潜在的有害性を示す。
すべてのコードとデータは、さらなる研究を促進するために公開されます。
関連論文リスト
- Beating Backdoor Attack at Its Own Game [10.131734154410763]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
既存の防御方法は、攻撃の成功率を大幅に低下させた。
有害な試料を標的とした非敵のバックドアを注入する高効率な枠組みを提案する。
論文 参考訳(メタデータ) (2023-07-28T13:07:42Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Narcissus: A Practical Clean-Label Backdoor Attack with Limited
Information [22.98039177091884]
クリーンラベル」バックドア攻撃には、トレーニングセット全体の知識が必要である。
本稿では,対象クラスの代表例の知識のみに基づいて,クリーンラベルバックドア攻撃をマウントするアルゴリズムを提案する。
私たちの攻撃は、物理的な世界にトリガーが存在する場合でも、データセットやモデル間でうまく機能します。
論文 参考訳(メタデータ) (2022-04-11T16:58:04Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Excess Capacity and Backdoor Poisoning [11.383869751239166]
バックドアデータ中毒攻撃は、攻撃者がいくつかの透かし、ラベルのついたトレーニング例をトレーニングセットに注入する敵攻撃である。
本稿では,分類問題に対するバックドアデータ中毒攻撃を議論できる形式的理論的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-02T03:04:38Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Clean-Label Backdoor Attacks on Video Recognition Models [87.46539956587908]
画像バックドア攻撃は、ビデオでははるかに効果が低いことを示す。
本稿では,映像認識モデルに対するバックドアトリガとして,ユニバーサル・ディバイサル・トリガーを提案する。
提案したバックドア攻撃は,最先端のバックドア防御・検出手法に耐性がある。
論文 参考訳(メタデータ) (2020-03-06T04:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。