論文の概要: Data-centric NLP Backdoor Defense from the Lens of Memorization
- arxiv url: http://arxiv.org/abs/2409.14200v1
- Date: Sat, 21 Sep 2024 17:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 23:37:15.990775
- Title: Data-centric NLP Backdoor Defense from the Lens of Memorization
- Title(参考訳): 記憶レンズを用いたデータ中心型NLPバックドアディフェンス
- Authors: Zhenting Wang, Zhizhi Wang, Mingyu Jin, Mengnan Du, Juan Zhai, Shiqing Ma,
- Abstract要約: まず,言語モデルのメモリ化の定義を,サンプル単位からよりきめ細かな文要素単位に拡張する。
このような記憶の強さは、トレーニングデータセットにおける重複要素の頻度と正の相関関係があることが判明した。
結果として、バックドア攻撃を成功させるためには、重複文要素が必要である。
- 参考スコア(独自算出の注目度): 41.39143781315438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attack is a severe threat to the trustworthiness of DNN-based language models. In this paper, we first extend the definition of memorization of language models from sample-wise to more fine-grained sentence element-wise (e.g., word, phrase, structure, and style), and then point out that language model backdoors are a type of element-wise memorization. Through further analysis, we find that the strength of such memorization is positively correlated to the frequency of duplicated elements in the training dataset. In conclusion, duplicated sentence elements are necessary for successful backdoor attacks. Based on this, we propose a data-centric defense. We first detect trigger candidates in training data by finding memorizable elements, i.e., duplicated elements, and then confirm real triggers by testing if the candidates can activate backdoor behaviors (i.e., malicious elements). Results show that our method outperforms state-of-the-art defenses in defending against different types of NLP backdoors.
- Abstract(参考訳): バックドア攻撃は、DNNベースの言語モデルの信頼性に対する深刻な脅威である。
本稿では,まず,単語,フレーズ,構造,スタイルなど,よりきめ細かな文要素から,言語モデルの暗記の定義を拡張した上で,言語モデルバックドアが要素単位の暗記の一種であることを指摘する。
さらなる分析により,このような記憶の強さはトレーニングデータセットにおける重複要素の頻度と正の相関関係があることが判明した。
結果として、バックドア攻撃を成功させるためには、重複文要素が必要である。
そこで本研究では,データ中心の防衛手法を提案する。
まず、記憶可能な要素、すなわち重複した要素を見つけることによって、トレーニングデータ中のトリガー候補を検出し、次に、候補がバックドアの動作(すなわち悪意のある要素)を活性化できるかどうかをテストすることによって実際のトリガーを確認する。
以上の結果から,NLPバックドアに対する防御において,本手法は最先端の防御よりも優れていたことが示唆された。
関連論文リスト
- From Shortcuts to Triggers: Backdoor Defense with Denoised PoE [51.287157951953226]
言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。
既存のバックドア防御手法は主に明示的なトリガーによるバックドア攻撃に焦点を当てている。
我々は,様々なバックドア攻撃を防御するために,エンド・ツー・エンドアンサンブルに基づくバックドア防御フレームワークDPoEを提案する。
論文 参考訳(メタデータ) (2023-05-24T08:59:25Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z) - NCL: Textual Backdoor Defense Using Noise-augmented Contrastive Learning [14.537250979495596]
本研究では,テキストバックドア攻撃に対する防音学習フレームワークを提案する。
実験では,3種類のテキストバックドア攻撃を防御する手法の有効性を実証し,先行研究よりも優れていた。
論文 参考訳(メタデータ) (2023-03-03T07:07:04Z) - Excess Capacity and Backdoor Poisoning [11.383869751239166]
バックドアデータ中毒攻撃は、攻撃者がいくつかの透かし、ラベルのついたトレーニング例をトレーニングセットに注入する敵攻撃である。
本稿では,分類問題に対するバックドアデータ中毒攻撃を議論できる形式的理論的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-02T03:04:38Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - ONION: A Simple and Effective Defense Against Textual Backdoor Attacks [91.83014758036575]
バックドア攻撃は、ディープニューラルネットワーク(DNN)に対する創発的な訓練時間の脅威である
本論文では,ONION という,シンプルで効果的なテキストバックドア・ディフェンスを提案する。
実験では,5種類のバックドア攻撃に対するBiLSTMとBERTの防御効果を示す。
論文 参考訳(メタデータ) (2020-11-20T12:17:21Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z) - Mitigating backdoor attacks in LSTM-based Text Classification Systems by
Backdoor Keyword Identification [0.0]
テキスト分類システムでは、モデルに挿入されたバックドアがスパムや悪意のある音声を検知から逃れる可能性がある。
本稿では,内LSTMニューロンの変化を分析することによって,バックドア攻撃を緩和するためのバックドアキーワード識別(BKI)と呼ばれる防御手法を提案する。
本手法は,IMDB,DBpedia,20のニュースグループ,Reuters-21578データセットの4つの異なるテキスト分類ダットセットで評価する。
論文 参考訳(メタデータ) (2020-07-11T09:05:16Z) - Backdoors in Neural Models of Source Code [13.960152426268769]
ソースコードの深層学習の文脈でバックドアを研究する。
このようなバックドアをインストールするためにデータセットに毒を盛る方法を示す。
また、バックドアの注入の容易さと、それを除去する能力も示しています。
論文 参考訳(メタデータ) (2020-06-11T21:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。