論文の概要: Adversarial Training for Large Neural Language Models
- arxiv url: http://arxiv.org/abs/2004.08994v2
- Date: Wed, 29 Apr 2020 21:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 18:28:14.110909
- Title: Adversarial Training for Large Neural Language Models
- Title(参考訳): 大規模ニューラルネットワークモデルの逆学習
- Authors: Xiaodong Liu, Hao Cheng, Pengcheng He, Weizhu Chen, Yu Wang, Hoifung
Poon and Jianfeng Gao
- Abstract要約: 対戦型事前学習は、一般化と堅牢性の両方を改善することができることを示す。
ALUMは、対向損失を最大化する埋め込み空間に摂動を適用することで、トレーニング目標を正規化する。
ALUMはさらにタスク固有の微調整と組み合わせて追加のゲインを得ることもできる。
- 参考スコア(独自算出の注目度): 107.84290922621163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization and robustness are both key desiderata for designing machine
learning methods. Adversarial training can enhance robustness, but past work
often finds it hurts generalization. In natural language processing (NLP),
pre-training large neural language models such as BERT have demonstrated
impressive gain in generalization for a variety of tasks, with further
improvement from adversarial fine-tuning. However, these models are still
vulnerable to adversarial attacks. In this paper, we show that adversarial
pre-training can improve both generalization and robustness. We propose a
general algorithm ALUM (Adversarial training for large neural LangUage Models),
which regularizes the training objective by applying perturbations in the
embedding space that maximizes the adversarial loss. We present the first
comprehensive study of adversarial training in all stages, including
pre-training from scratch, continual pre-training on a well-trained model, and
task-specific fine-tuning. ALUM obtains substantial gains over BERT on a wide
range of NLP tasks, in both regular and adversarial scenarios. Even for models
that have been well trained on extremely large text corpora, such as RoBERTa,
ALUM can still produce significant gains from continual pre-training, whereas
conventional non-adversarial methods can not. ALUM can be further combined with
task-specific fine-tuning to attain additional gains. The ALUM code is publicly
available at https://github.com/namisan/mt-dnn.
- Abstract(参考訳): 一般化と堅牢性は、機械学習手法を設計する上で重要なデシデラタである。
敵対的なトレーニングは堅牢性を高めるが、過去の作業は一般化を損なうことが多い。
自然言語処理(NLP)では、BERTのような事前学習された大規模ニューラルネットワークモデルが、様々なタスクを一般化し、対向的な微調整によってさらに改善された。
しかし、これらのモデルはまだ敵攻撃に弱い。
本稿では,逆事前学習が一般化とロバスト性の両方を改善することを示す。
本研究では,学習目標を最大化する埋め込み空間に摂動を適用することにより,学習目標を定式化する汎用アルゴリズムアラムを提案する。
本研究は,全段階における対人訓練の総合的研究であり,スクラッチからの事前訓練,訓練済みモデルの継続事前訓練,タスク固有の微調整などである。
ALUMは、通常のシナリオと逆シナリオの両方において、広範囲のNLPタスクにおいてBERTよりも大幅に向上する。
RoBERTaのような非常に大きなテキストコーパスで十分に訓練されたモデルであっても、ALUMは継続的な事前学習から大きな利益を得られるが、従来の非逆行法では得られない。
ALUMはさらにタスク固有の微調整と組み合わせて追加のゲインを得ることもできる。
ALUMコードはhttps://github.com/namisan/mt-dnnで公開されている。
関連論文リスト
- Instruction Pre-Training: Language Models are Supervised Multitask Learners [115.95022434390181]
本稿では,事前学習言語モデル(LM)に対して,命令応答対を用いた大規模生コーパスを付加するフレームワークを提案する。
実験では,40以上のタスクカテゴリをカバーする2億の命令応答ペアを合成し,インストラクション事前学習の有効性を検証する。
論文 参考訳(メタデータ) (2024-06-20T16:55:33Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Impact of Adversarial Training on Robustness and Generalizability of
Language Models [33.790145748360686]
この研究は、言語モデルにおける敵対的訓練に対する異なるアプローチの深い比較を提供する。
以上の結果から,データ拡張の事前トレーニングや,入力空間の摂動によるトレーニングにより,より堅牢性を達成できることが示唆された。
学習モデルのニューロンの言語的相関解析により、改良された一般化は「より専門化された」ニューロンによるものであることが明らかになった。
論文 参考訳(メタデータ) (2022-11-10T12:36:50Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Robust Transfer Learning with Pretrained Language Models through
Adapters [40.45102278979193]
BERTのような大きな事前訓練された言語モデルによる伝達学習は、ほとんどのNLPタスクにおいて支配的なアプローチとなっている。
これらの問題を緩和するために, 単純かつ効果的なアダプタベースのアプローチを提案する。
実験により,このような学習手法が,様々な下流タスクへの伝達学習における安定性と対角的堅牢性の向上につながることが示された。
論文 参考訳(メタデータ) (2021-08-05T02:30:13Z) - Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。
我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。
その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文 参考訳(メタデータ) (2020-12-22T00:45:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。