論文の概要: Towards Improving Adversarial Training of NLP Models
- arxiv url: http://arxiv.org/abs/2109.00544v1
- Date: Wed, 1 Sep 2021 17:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-04 08:17:07.948779
- Title: Towards Improving Adversarial Training of NLP Models
- Title(参考訳): NLPモデルの対戦訓練改善に向けて
- Authors: Jin Yong Yoo, Yanjun Qi
- Abstract要約: 堅牢なディープニューラルネットワークを学習する手法であるAdrial Trainingは、トレーニング中に敵の例を構築する。
texttA2T$は、バニラ敵の訓練に最適化された、新しくて安価な単語置換攻撃である。
texttA2T$は、NLPモデルの標準精度、クロスドメインの一般化、解釈可能性を改善することができる。
- 参考スコア(独自算出の注目度): 8.530197034492797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial training, a method for learning robust deep neural networks,
constructs adversarial examples during training. However, recent methods for
generating NLP adversarial examples involve combinatorial search and expensive
sentence encoders for constraining the generated instances. As a result, it
remains challenging to use vanilla adversarial training to improve NLP models'
performance, and the benefits are mainly uninvestigated. This paper proposes a
simple and improved vanilla adversarial training process for NLP, which we name
Attacking to Training ($\texttt{A2T}$). The core part of $\texttt{A2T}$ is a
new and cheaper word substitution attack optimized for vanilla adversarial
training. We use $\texttt{A2T}$ to train BERT and RoBERTa models on IMDB,
Rotten Tomatoes, Yelp, and SNLI datasets. Our results show that it is possible
to train empirically robust NLP models using a much cheaper adversary. We
demonstrate that vanilla adversarial training with $\texttt{A2T}$ can improve
an NLP model's robustness to the attack it was originally trained with and also
defend the model against other types of attacks. Furthermore, we show that
$\texttt{A2T}$ can improve NLP models' standard accuracy, cross-domain
generalization, and interpretability. Code is available at
http://github.com/jinyongyoo/A2T .
- Abstract(参考訳): 強固なディープニューラルネットワークの学習方法であるadversarial trainingは、トレーニング中に逆行例を構築する。
しかし、最近のNLP対逆例の生成手法には、合成検索と、生成されたインスタンスを制約する高価な文エンコーダが含まれる。
その結果,NLPモデルの性能向上にバニラ逆行訓練を用いることは依然として困難であり,そのメリットは主に調査されていない。
そこで本研究では,NLP に対するバニラ対逆訓練を簡易かつ改良し,Attaking to Training (\texttt{A2T}$) と名付けた。
$\texttt{A2T}$の中核となるのは、バニラ逆行訓練に最適化された、新しく安価な単語置換攻撃である。
IMDB、Rotten Tomatoes、Yelp、SNLIデータセット上でBERTとRoBERTaモデルをトレーニングするために、$\texttt{A2T}$を使用します。
以上の結果から,より安価な逆数モデルを用いて実験的に堅牢なNLPモデルを訓練することが可能であることが示唆された。
我々は,$\texttt{a2t}$を用いたバニラ攻撃訓練が,当初トレーニングした攻撃に対するnlpモデルの堅牢性を改善し,他のタイプの攻撃からモデルを守ることを実証する。
さらに、$\texttt{A2T}$は、NLPモデルの標準精度、クロスドメインの一般化、解釈可能性を改善することができることを示す。
コードはhttp://github.com/jinyongyoo/A2Tで入手できる。
関連論文リスト
- Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - SCAT: Robust Self-supervised Contrastive Learning via Adversarial
Training for Text Classification [15.932462099791307]
SCAT (Self-supervised Contrastive Learning via Adversarial Training) と呼ばれる新しい学習フレームワークを提案する。
SCATは、データのランダムな拡張をラベルのない方法で修正し、敵の例を生成する。
以上の結果から,SCATはスクラッチから頑健な言語モデルを訓練できるだけでなく,既存の事前学習言語モデルの堅牢性を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-07-04T05:41:31Z) - Supervised Contrastive Prototype Learning: Augmentation Free Robust
Neural Network [17.10753224600936]
ディープニューラルネットワーク(DNN)の入力空間における変換は、特徴空間の意図しない変化をもたらす。
我々は、SCPL (textbfd Contrastive Prototype Learning$) というトレーニングフレームワークを提案する。
同じクラスと反対クラスのプロトタイプでNペアの対照的な損失を使用し、分類ヘッドを$textbfPrototype Classification Head(PCH)で置き換える。
私たちのアプローチは、$textitsample efficient$、$textitsample mining$、既存のどのDNNでも変更せずに実装できます。
論文 参考訳(メタデータ) (2022-11-26T01:17:15Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation
Models [25.938195038044448]
我々は,訓練済みNLPモデルに対する最初のタスク非依存のバックドアアタックであるNameを提案する。
相手は、事前訓練されたモデルにバックドアを埋め込む際に、下流タスクに関する事前情報を必要としない。
実験結果から,本手法は,幅広い下流NLPタスクを効果的かつステルスな方法で妥協できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-06T02:48:58Z) - KATANA: Simple Post-Training Robustness Using Test Time Augmentations [49.28906786793494]
このような攻撃に対する先導的な防御は、DNNが敵の攻撃に対して堅牢であるように訓練される技術である敵の訓練である。
そこで本稿では,既存の事前学習型DNNを重みを変更せずに堅牢化する,シンプルで使いやすいKATANA手法を提案する。
我々の戦略は、自然画像の分類に最小限の妥協を伴い、様々な攻撃に対する最先端の敵対的堅牢性を達成する。
論文 参考訳(メタデータ) (2021-09-16T19:16:00Z) - Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。
我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。
その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文 参考訳(メタデータ) (2020-12-22T00:45:24Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z) - Fast is better than free: Revisiting adversarial training [86.11788847990783]
より弱く安価な敵を用いて、経験的に堅牢なモデルを訓練することが可能であることを示す。
我々は,FGSM逆行訓練を失敗に導く「破滅的オーバーフィッティング(catastrophic overfitting)」と呼ばれる障害モードを特定した。
論文 参考訳(メタデータ) (2020-01-12T20:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。