論文の概要: Defending Pre-trained Language Models from Adversarial Word
Substitutions Without Performance Sacrifice
- arxiv url: http://arxiv.org/abs/2105.14553v1
- Date: Sun, 30 May 2021 14:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 11:56:15.713196
- Title: Defending Pre-trained Language Models from Adversarial Word
Substitutions Without Performance Sacrifice
- Title(参考訳): 性能の犠牲のない単語置換から事前学習言語モデルを守る
- Authors: Rongzhou Bao, Jiayi Wang, Hai Zhao
- Abstract要約: 敵対的単語置換は 最も困難な テキストの敵対的攻撃方法の1つです
本稿では、ADFAR(Anomaly Detection with Frequency-Aware Randomization)という、コンパクトかつ高性能に保存されたフレームワークを提案する。
本研究では, ADFAR が提案した防衛手法を, より高速な推論速度で大幅に上回っていることを示す。
- 参考スコア(独自算出の注目度): 42.490810188180546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained contextualized language models (PrLMs) have led to strong
performance gains in downstream natural language understanding tasks. However,
PrLMs can still be easily fooled by adversarial word substitution, which is one
of the most challenging textual adversarial attack methods. Existing defence
approaches suffer from notable performance loss and complexities. Thus, this
paper presents a compact and performance-preserved framework, Anomaly Detection
with Frequency-Aware Randomization (ADFAR). In detail, we design an auxiliary
anomaly detection classifier and adopt a multi-task learning procedure, by
which PrLMs are able to distinguish adversarial input samples. Then, in order
to defend adversarial word substitution, a frequency-aware randomization
process is applied to those recognized adversarial input samples. Empirical
results show that ADFAR significantly outperforms those newly proposed defense
methods over various tasks with much higher inference speed. Remarkably, ADFAR
does not impair the overall performance of PrLMs. The code is available at
https://github.com/LilyNLP/ADFAR
- Abstract(参考訳): 事前学習された文脈言語モデル(prlm)は、下流の自然言語理解タスクのパフォーマンス向上につながった。
しかし、PrLMは、最も難易度の高いテキスト逆攻撃手法の1つである逆語置換によって、いまだに容易に騙される。
既存の防御アプローチは、顕著なパフォーマンス損失と複雑さに苦しむ。
そこで本稿では,ADFAR(Anomaly Detection with Frequency-Aware Randomization)という,コンパクトかつ高性能なフレームワークを提案する。
そこで,本研究では,複数タスクの学習手順を用いて,逆入力サンプルを識別可能な補助的異常検出分類器を設計する。
そして、敵語置換を防御するために、認識された敵語入力サンプルに周波数認識ランダム化処理を適用する。
実験の結果, ADFARは, 予測速度がはるかに高い各種タスクにおいて, 新たに提案した防御手法よりも有意に優れていた。
ADFARはPrLMの全体的な性能を損なわない。
コードはhttps://github.com/LilyNLP/ADFARで入手できる。
関連論文リスト
- CR-UTP: Certified Robustness against Universal Text Perturbations on Large Language Models [12.386141652094999]
ランダムな平滑化に基づく既存の証明されたロバスト性は、入力固有のテキスト摂動の証明にかなりの可能性を示している。
ナイーブな方法は、単にマスキング比とマスキング攻撃トークンの可能性を増大させることであるが、認証精度と認証半径の両方を著しく低下させる。
本研究では,マスキングにおいて高い認証精度を維持する優れたプロンプトを識別する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T01:02:22Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - ADEPT: A DEbiasing PrompT Framework [49.582497203415855]
ファインタニングは文脈化された単語の埋め込みを曖昧にするための応用手法である。
意味的な意味を持つ個別のプロンプトは、タスクを乱すのに有効であることが示されている。
本稿では, PLM をデバイアス化する方法であるADEPT を提案し, バイアス除去と表現能力の確保の微妙なバランスを維持しながら, 即時チューニングによる PLM のデバイアス化手法を提案する。
論文 参考訳(メタデータ) (2022-11-10T08:41:40Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Disentangled Contrastive Learning for Learning Robust Textual
Representations [13.880693856907037]
運動量表現一貫性の概念を導入し,特徴を整合させ,一様性に適合しながらパワー正規化を活用する。
NLPベンチマークの実験結果から,本手法はベースラインよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2021-04-11T03:32:49Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。