論文の概要: Fast Adversarial Training against Textual Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2401.12461v1
- Date: Tue, 23 Jan 2024 03:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 16:52:10.982545
- Title: Fast Adversarial Training against Textual Adversarial Attacks
- Title(参考訳): テキスト・アタックに対する高速対人訓練
- Authors: Yichen Yang, Xin Liu, Kun He
- Abstract要約: 本研究では,同義語を意識しないシナリオにおけるモデルロバスト性を改善するために,FAT法を提案する。
FATは、埋め込み空間における敵の例を作成するために、シングルステップとマルチステップの勾配上昇を使用する。
実験により、FATは同義ではないシナリオにおいてBERTモデルのロバスト性を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 11.023035222098008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many adversarial defense methods have been proposed to enhance the
adversarial robustness of natural language processing models. However, most of
them introduce additional pre-set linguistic knowledge and assume that the
synonym candidates used by attackers are accessible, which is an ideal
assumption. We delve into adversarial training in the embedding space and
propose a Fast Adversarial Training (FAT) method to improve the model
robustness in the synonym-unaware scenario from the perspective of single-step
perturbation generation and perturbation initialization. Based on the
observation that the adversarial perturbations crafted by single-step and
multi-step gradient ascent are similar, FAT uses single-step gradient ascent to
craft adversarial examples in the embedding space to expedite the training
process. Based on the observation that the perturbations generated on the
identical training sample in successive epochs are similar, FAT fully utilizes
historical information when initializing the perturbation. Extensive
experiments demonstrate that FAT significantly boosts the robustness of BERT
models in the synonym-unaware scenario, and outperforms the defense baselines
under various attacks with character-level and word-level modifications.
- Abstract(参考訳): 自然言語処理モデルの敵対的ロバスト性を高めるために、多くの敵対的防御手法が提案されている。
しかし、それらの多くは追加の事前設定された言語知識を導入し、攻撃者が使用する同義語候補がアクセス可能であると仮定する。
埋め込み空間における敵の訓練を探求し,単一ステップの摂動生成と摂動初期化の観点から,同義のシナリオにおけるモデルロバスト性を改善するためのFAT(Fast Adversarial Training)手法を提案する。
単段勾配上昇と多段勾配上昇による逆摂動は類似しているという観測に基づいて、fatは単段勾配上昇を用いて埋め込み空間内の逆行例を製作し、トレーニングプロセスを迅速化する。
連続したエポックにおける同一のトレーニングサンプルに発生する摂動が類似しているという観測に基づいて、FATは摂動を初期化する際の履歴情報を完全に活用する。
大規模な実験により、FATは同義性のないシナリオにおいてBERTモデルのロバスト性を著しく向上させ、文字レベルや単語レベルの修正による様々な攻撃において防御ベースラインを上回っていることが示された。
関連論文リスト
- SCAT: Robust Self-supervised Contrastive Learning via Adversarial
Training for Text Classification [15.932462099791307]
SCAT (Self-supervised Contrastive Learning via Adversarial Training) と呼ばれる新しい学習フレームワークを提案する。
SCATは、データのランダムな拡張をラベルのない方法で修正し、敵の例を生成する。
以上の結果から,SCATはスクラッチから頑健な言語モデルを訓練できるだけでなく,既存の事前学習言語モデルの堅牢性を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-07-04T05:41:31Z) - Improving Fast Adversarial Training with Prior-Guided Knowledge [80.52575209189365]
本研究では,標準的な対人訓練と高速対人訓練の訓練過程を比較して,対人具体的品質と破滅的オーバーフィッティングの関係について検討した。
その結果,敵対例の攻撃成功率が悪化すると,破滅的なオーバーフィッティングが発生することがわかった。
論文 参考訳(メタデータ) (2023-04-01T02:18:12Z) - PIAT: Parameter Interpolation based Adversarial Training for Image
Classification [19.276850361815953]
補間ベース・アドバイザリアル・トレーニング(PIAT)と呼ばれる新しいフレームワークを提案し,トレーニング中に過去の情報をフル活用する。
我々のフレームワークは汎用的であり、他の敵の訓練手法と組み合わせることで、より堅牢な精度を高めることができる。
論文 参考訳(メタデータ) (2023-03-24T12:22:34Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Prior-Guided Adversarial Initialization for Fast Adversarial Training [84.56377396106447]
本稿では,FAT(Fast Adversarial Training)とSAT(Standard Adversarial Training)の違いについて検討する。
FATの攻撃成功率(AE)は、後期訓練段階で徐々に悪化し、過度に適合する。
本報告では, オーバーフィッティングを回避するために, 事前誘導FGSM初期化手法を提案する。
提案手法は, 破滅的な過度適合を防止し, 最先端のFAT法より優れる。
論文 参考訳(メタデータ) (2022-07-18T18:13:10Z) - Robust Textual Embedding against Word-level Adversarial Attacks [15.235449552083043]
我々は、FTML(Fast Triplet Metric Learning)と呼ばれる新しい堅牢なトレーニング手法を提案する。
FTMLは, 様々な先進攻撃に対して, モデルロバスト性を著しく向上させることができることを示す。
我々の研究は、ロバストな単語埋め込みによってテキストの堅牢性を改善する大きな可能性を示している。
論文 参考訳(メタデータ) (2022-02-28T14:25:00Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Towards Robustness Against Natural Language Word Substitutions [87.56898475512703]
単語置換に対するロバスト性は、意味論的に類似した単語を置換として、明確に定義され広く受け入れられる形式である。
従来の防衛方法は、$l$-ball または hyper-rectangle を用いてベクトル空間における単語置換をキャプチャする。
論文 参考訳(メタデータ) (2021-07-28T17:55:08Z) - Self-Supervised Contrastive Learning with Adversarial Perturbations for
Robust Pretrained Language Models [18.726529370845256]
本稿では,単語置換に基づく攻撃に対する事前学習型言語モデルBERTの堅牢性を改善する。
また,BERTにおける単語レベルの対人訓練のための対人攻撃も作成する。
論文 参考訳(メタデータ) (2021-07-15T21:03:34Z) - Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。
我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。
その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文 参考訳(メタデータ) (2020-12-22T00:45:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。