論文の概要: Impact of Adversarial Training on Robustness and Generalizability of
Language Models
- arxiv url: http://arxiv.org/abs/2211.05523v2
- Date: Thu, 25 May 2023 08:17:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 23:35:58.729435
- Title: Impact of Adversarial Training on Robustness and Generalizability of
Language Models
- Title(参考訳): 言語モデルのロバスト性および一般化性に及ぼす対人訓練の影響
- Authors: Enes Altinisik, Hassan Sajjad, Husrev Taha Sencar, Safa Messaoud,
Sanjay Chawla
- Abstract要約: この研究は、言語モデルにおける敵対的訓練に対する異なるアプローチの深い比較を提供する。
以上の結果から,データ拡張の事前トレーニングや,入力空間の摂動によるトレーニングにより,より堅牢性を達成できることが示唆された。
学習モデルのニューロンの言語的相関解析により、改良された一般化は「より専門化された」ニューロンによるものであることが明らかになった。
- 参考スコア(独自算出の注目度): 26.923486517816265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial training is widely acknowledged as the most effective defense
against adversarial attacks. However, it is also well established that
achieving both robustness and generalization in adversarially trained models
involves a trade-off. The goal of this work is to provide an in depth
comparison of different approaches for adversarial training in language models.
Specifically, we study the effect of pre-training data augmentation as well as
training time input perturbations vs. embedding space perturbations on the
robustness and generalization of transformer-based language models. Our
findings suggest that better robustness can be achieved by pre-training data
augmentation or by training with input space perturbation. However, training
with embedding space perturbation significantly improves generalization. A
linguistic correlation analysis of neurons of the learned models reveals that
the improved generalization is due to 'more specialized' neurons. To the best
of our knowledge, this is the first work to carry out a deep qualitative
analysis of different methods of generating adversarial examples in adversarial
training of language models.
- Abstract(参考訳): 敵の訓練は敵の攻撃に対する最も効果的な防御として広く認められている。
しかし、敵対的に訓練されたモデルにおける堅牢性と一般化の両立にはトレードオフが伴うことも十分に確立されている。
この研究の目的は、言語モデルにおける敵対的トレーニングのための異なるアプローチを深く比較することである。
具体的には、事前学習データ拡張とトレーニング時間入力摂動と埋め込み空間摂動がトランスフォーマーベース言語モデルの堅牢性と一般化に及ぼす影響について検討する。
以上の結果から,データの強化や入力空間の摂動によるトレーニングにより,より頑健性が得られることが示唆された。
しかし、埋め込み空間摂動によるトレーニングは一般化を著しく改善する。
学習モデルのニューロンの言語的相関解析により、改良された一般化は「より専門的な」ニューロンによるものであることが明らかになった。
我々の知識を最大限に活用するために、言語モデルの対角訓練における逆例を生成する様々な方法の深い定性的な分析を行うのは、これが初めてである。
関連論文リスト
- Combining Adversaries with Anti-adversaries in Training [9.43429549718968]
敵対的トレーニングは、ディープニューラルネットワークの堅牢性を改善する効果的なテクニックである。
本研究では, 対人訓練が深層学習モデルに及ぼす影響を, 公平性, 堅牢性, 一般化の観点から検討した。
論文 参考訳(メタデータ) (2023-04-25T03:34:35Z) - Self-Ensemble Adversarial Training for Improved Robustness [14.244311026737666]
敵の訓練は、あらゆる種類の防衛方法において、様々な敵の攻撃に対する最強の戦略である。
最近の研究は主に新しい損失関数や正規化器の開発に重点を置いており、重み空間の特異な最適点を見つけようとしている。
我々は,歴史モデルの重みを平均化し,頑健な分類器を生成するための,単純だが強力なemphSelf-Ensemble Adversarial Training (SEAT)法を考案した。
論文 参考訳(メタデータ) (2022-03-18T01:12:18Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - On the Impact of Hard Adversarial Instances on Overfitting in
Adversarial Training [72.95029777394186]
敵の訓練は、敵の攻撃に対してモデルを強固にするための一般的な方法である。
トレーニングインスタンスの観点から,この現象を考察する。
逆行訓練における一般化性能の低下は, 強行訓練に適合するモデルが試みた結果であることを示す。
論文 参考訳(メタデータ) (2021-12-14T12:19:24Z) - Evaluating Deception Detection Model Robustness To Linguistic Variation [10.131671217810581]
認知ニュース検出の設定における言語的変化に対するモデル堅牢性の解析を提案する。
2つの予測タスクを検討し,3つの最先端組込みを比較して,モデル性能の一貫した傾向を強調する。
キャラクタあるいは混合アンサンブルモデルが最も効果的な防御であり,キャラクタ摂動に基づく攻撃戦術がより成功していることがわかった。
論文 参考訳(メタデータ) (2021-04-23T17:25:38Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z) - Adversarial Training for Large Neural Language Models [107.84290922621163]
対戦型事前学習は、一般化と堅牢性の両方を改善することができることを示す。
ALUMは、対向損失を最大化する埋め込み空間に摂動を適用することで、トレーニング目標を正規化する。
ALUMはさらにタスク固有の微調整と組み合わせて追加のゲインを得ることもできる。
論文 参考訳(メタデータ) (2020-04-20T00:07:18Z) - Adversarial Augmentation Policy Search for Domain and Cross-Lingual
Generalization in Reading Comprehension [96.62963688510035]
理解モデルを読むことは、しばしばトレーニングデータセットのニュアンスに過度に適合し、敵対的な評価に失敗する。
本稿では,複数の効果的な敵と自動データ拡張ポリシー探索手法を提案し,対角的評価に対して,読解理解モデルをより堅牢にすることを目的とする。
論文 参考訳(メタデータ) (2020-04-13T17:20:08Z) - Precise Tradeoffs in Adversarial Training for Linear Regression [55.764306209771405]
本稿では,ガウス的特徴を伴う線形回帰の文脈における対人訓練の役割を,正確かつ包括的に理解する。
我々は,同時代のミニマックス対逆訓練手法によって達成された標準/ロバスト精度とそれに対応するトレードオフを正確に特徴づける。
逆行訓練アルゴリズムの理論は、様々な要因(トレーニングデータのサイズや品質、モデルの過度化など)がこれらの2つの競合するアキュラシー間のトレードオフにどのように影響するかを厳密に研究する上で役立ちます。
論文 参考訳(メタデータ) (2020-02-24T19:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。