論文の概要: Rethinking Textual Adversarial Defense for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2208.10251v1
- Date: Thu, 21 Jul 2022 07:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-28 22:34:15.960653
- Title: Rethinking Textual Adversarial Defense for Pre-trained Language Models
- Title(参考訳): 事前学習型言語モデルにおけるテキスト・アドバイザラル・ディフェンスの再考
- Authors: Jiayi Wang, Rongzhou Bao, Zhuosheng Zhang, Hai Zhao
- Abstract要約: 文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
- 参考スコア(独自算出の注目度): 79.18455635071817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although pre-trained language models (PrLMs) have achieved significant
success, recent studies demonstrate that PrLMs are vulnerable to adversarial
attacks. By generating adversarial examples with slight perturbations on
different levels (sentence / word / character), adversarial attacks can fool
PrLMs to generate incorrect predictions, which questions the robustness of
PrLMs. However, we find that most existing textual adversarial examples are
unnatural, which can be easily distinguished by both human and machine. Based
on a general anomaly detector, we propose a novel metric (Degree of Anomaly) as
a constraint to enable current adversarial attack approaches to generate more
natural and imperceptible adversarial examples. Under this new constraint, the
success rate of existing attacks drastically decreases, which reveals that the
robustness of PrLMs is not as fragile as they claimed. In addition, we find
that four types of randomization can invalidate a large portion of textual
adversarial examples. Based on anomaly detector and randomization, we design a
universal defense framework, which is among the first to perform textual
adversarial defense without knowing the specific attack. Empirical results show
that our universal defense framework achieves comparable or even higher
after-attack accuracy with other specific defenses, while preserving higher
original accuracy at the same time. Our work discloses the essence of textual
adversarial attacks, and indicates that (1) further works of adversarial
attacks should focus more on how to overcome the detection and resist the
randomization, otherwise their adversarial examples would be easily detected
and invalidated; and (2) compared with the unnatural and perceptible
adversarial examples, it is those undetectable adversarial examples that pose
real risks for PrLMs and require more attention for future robustness-enhancing
strategies.
- Abstract(参考訳): プレトレーニング言語モデル(PrLM)は大きな成功を収めているが、最近の研究では、PrLMは敵の攻撃に弱いことが示されている。
異なるレベル(文/単語/文字)でわずかな摂動を持つ敵の例を生成することで、敵の攻撃はPrLMを騙して誤った予測を生成し、PrLMの堅牢性に疑問を投げかける。
しかし、既存のテキストの逆数例のほとんどは不自然なものであり、人間と機械の両方で容易に区別できる。
一般的な異常検知器をベースとして,現在の敵攻撃アプローチがより自然で知覚不能な敵の例を生成するための制約として,新しい指標(異常度)を提案する。
この新たな制約の下では、既存の攻撃の成功率は劇的に減少し、PrLMsの堅牢性は、彼らが主張するほど脆弱ではないことが明らかになった。
さらに, 4種類のランダム化は, テキスト対逆例の大部分を無効化できることがわかった。
異常検出とランダム化に基づいて,本手法は,特定の攻撃を知らずにテキスト対角防御を初めて行うユニバーサル・ディフェンス・フレームワークを設計する。
経験的な結果から,我々のユニバーサルディフェンスフレームワークは,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック精度を達成でき,同時に元の精度も維持できることがわかった。
Our work discloses the essence of textual adversarial attacks, and indicates that (1) further works of adversarial attacks should focus more on how to overcome the detection and resist the randomization, otherwise their adversarial examples would be easily detected and invalidated; and (2) compared with the unnatural and perceptible adversarial examples, it is those undetectable adversarial examples that pose real risks for PrLMs and require more attention for future robustness-enhancing strategies.
関連論文リスト
- Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Fooling the Textual Fooler via Randomizing Latent Representations [13.77424820701913]
敵語レベルの摂動はよく研究され効果的な攻撃戦略である。
本稿では、敵の例を生成する過程を複雑にすることを目的とする、軽量で攻撃に依存しない防御法を提案する。
本稿では,AdvFoolerの対人的単語レベル攻撃に対する最先端のロバスト性を実証的に示す。
論文 参考訳(メタデータ) (2023-10-02T06:57:25Z) - Interpretability is a Kind of Safety: An Interpreter-based Ensemble for
Adversary Defense [28.398901783858005]
我々は,強固な防御敵に対するX-Ensembleと呼ばれるインタプリタベースのアンサンブルフレームワークを提案する。
X-エンサンブルはランダムフォレスト(RF)モデルを用いて、準検出器をアンサンブル検出器に結合し、敵のハイブリッド攻撃防御を行う。
論文 参考訳(メタデータ) (2023-04-14T04:32:06Z) - Distinguishing Non-natural from Natural Adversarial Samples for More
Robust Pre-trained Language Model [79.18455635071817]
PRLMが失敗する敵のサンプルは、ほとんど自然ではないことが分かり、現実には現れない。
本研究では,より自然対向的なサンプルを用いたPRLMのロバスト性を評価するための異常検出器を提案する。
論文 参考訳(メタデータ) (2022-03-19T14:06:46Z) - TREATED:Towards Universal Defense against Textual Adversarial Attacks [28.454310179377302]
本稿では,様々な摂動レベルの攻撃に対して,仮定なしに防御できる汎用的対向検出手法であるTREATEDを提案する。
3つの競合するニューラルネットワークと2つの広く使われているデータセットの大規模な実験により、本手法はベースラインよりも優れた検出性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-13T03:31:20Z) - Towards Defending against Adversarial Examples via Attack-Invariant
Features [147.85346057241605]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
敵の強靭性は、敵の例を利用して改善することができる。
目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
論文 参考訳(メタデータ) (2021-06-09T12:49:54Z) - Are Adversarial Examples Created Equal? A Learnable Weighted Minimax
Risk for Robustness under Non-uniform Attacks [70.11599738647963]
敵の訓練は、強力な攻撃に耐える数少ない防衛の1つである。
従来の防御機構は、基礎となるデータ分布に従って、サンプルに対する均一な攻撃を前提とします。
非一様攻撃に対して重み付けされたミニマックスリスク最適化を提案する。
論文 参考訳(メタデータ) (2020-10-24T21:20:35Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。