論文の概要: Pretraining Text Encoders with Adversarial Mixture of Training Signal
Generators
- arxiv url: http://arxiv.org/abs/2204.03243v1
- Date: Thu, 7 Apr 2022 06:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 13:31:07.454447
- Title: Pretraining Text Encoders with Adversarial Mixture of Training Signal
Generators
- Title(参考訳): 学習信号生成器の逆混合による事前学習テキストエンコーダ
- Authors: Yu Meng, Chenyan Xiong, Payal Bajaj, Saurabh Tiwary, Paul Bennett,
Jiawei Han, Xia Song
- Abstract要約: AMOSは、Mixture Of Signalsを通じて、逆学習カリキュラムでテキストエンコーダを事前訓練する。
AMOS は ELECTRA と最近の最先端の事前訓練モデルを BERT ベースサイズモデルの GLUE ベンチマークで約1ポイント上回っている。
- 参考スコア(独自算出の注目度): 48.66208865692696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new framework AMOS that pretrains text encoders with an
Adversarial learning curriculum via a Mixture Of Signals from multiple
auxiliary generators. Following ELECTRA-style pretraining, the main encoder is
trained as a discriminator to detect replaced tokens generated by auxiliary
masked language models (MLMs). Different from ELECTRA which trains one MLM as
the generator, we jointly train multiple MLMs of different sizes to provide
training signals at various levels of difficulty. To push the discriminator to
learn better with challenging replaced tokens, we learn mixture weights over
the auxiliary MLMs' outputs to maximize the discriminator loss by
backpropagating the gradient from the discriminator via Gumbel-Softmax. For
better pretraining efficiency, we propose a way to assemble multiple MLMs into
one unified auxiliary model. AMOS outperforms ELECTRA and recent
state-of-the-art pretrained models by about 1 point on the GLUE benchmark for
BERT base-sized models.
- Abstract(参考訳): 本稿では,複数の補助発電機からのMixture Of Signalsを通じて,テキストエンコーダを適応学習カリキュラムで事前訓練する新しいフレームワークAMOSを提案する。
ELECTRAスタイルの事前トレーニングの後、メインエンコーダは、補助マスク付き言語モデル(MLM)によって生成される交換トークンを検出するための識別器として訓練される。
1つのMLMをジェネレータとして訓練するELECTRAとは異なり、異なるサイズの複数のMLMを共同で訓練し、様々な難易度で訓練信号を提供する。
代替トークンを用いて識別器をより良く学習するために,補助mlms出力に対する混合重みを学習し,識別器からの勾配をgumbel-softmaxを介してバックプロパゲーションすることにより識別器損失を最大化する。
事前学習効率を向上させるために,複数のMLMを1つの統合補助モデルに組み立てる手法を提案する。
AMOS は ELECTRA と最近の最先端の事前訓練モデルを BERT ベースサイズモデルの GLUE ベンチマークで約1ポイント上回っている。
関連論文リスト
- Prompt Optimization via Adversarial In-Context Learning [51.18075178593142]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - Learning to Sample Replacements for ELECTRA Pre-Training [40.17248997321726]
ELECTRAは、置換トークンを検出するために識別器を事前訓練し、置換はマスク付き言語モデリングで訓練されたジェネレータからサンプリングされる。
この性能にもかかわらず、ELECTRAは以下の2つの問題に悩まされている。
ELECTRA事前学習における置換サンプリングを改善する2つの方法を提案する。
論文 参考訳(メタデータ) (2021-06-25T15:51:55Z) - Training ELECTRA Augmented with Multi-word Selection [53.77046731238381]
本稿では,マルチタスク学習に基づくELECTRAの改良を目的としたテキストエンコーダ事前学習手法を提案する。
具体的には、識別器を訓練し、置換トークンを同時に検出し、候補集合から元のトークンを選択する。
論文 参考訳(メタデータ) (2021-05-31T23:19:00Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。