論文の概要: ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators
- arxiv url: http://arxiv.org/abs/2003.10555v1
- Date: Mon, 23 Mar 2020 21:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 00:07:19.854967
- Title: ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators
- Title(参考訳): electra: ジェネレータではなく識別子としてテキストエンコーダを事前トレーニングする
- Authors: Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning
- Abstract要約: Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
- 参考スコア(独自算出の注目度): 108.3381301768299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked language modeling (MLM) pre-training methods such as BERT corrupt the
input by replacing some tokens with [MASK] and then train a model to
reconstruct the original tokens. While they produce good results when
transferred to downstream NLP tasks, they generally require large amounts of
compute to be effective. As an alternative, we propose a more sample-efficient
pre-training task called replaced token detection. Instead of masking the
input, our approach corrupts it by replacing some tokens with plausible
alternatives sampled from a small generator network. Then, instead of training
a model that predicts the original identities of the corrupted tokens, we train
a discriminative model that predicts whether each token in the corrupted input
was replaced by a generator sample or not. Thorough experiments demonstrate
this new pre-training task is more efficient than MLM because the task is
defined over all input tokens rather than just the small subset that was masked
out. As a result, the contextual representations learned by our approach
substantially outperform the ones learned by BERT given the same model size,
data, and compute. The gains are particularly strong for small models; for
example, we train a model on one GPU for 4 days that outperforms GPT (trained
using 30x more compute) on the GLUE natural language understanding benchmark.
Our approach also works well at scale, where it performs comparably to RoBERTa
and XLNet while using less than 1/4 of their compute and outperforms them when
using the same amount of compute.
- Abstract(参考訳): masked language modeling (mlm) bertのような事前学習メソッドは、いくつかのトークンを[mask]に置き換え、元のトークンを再構築するためにモデルをトレーニングすることで入力を破壊した。
下流のNLPタスクに転送すると良い結果が得られるが、通常、大量の計算を効果的に行う必要がある。
代替案として,代替トークン検出という,よりサンプル効率の良い事前学習タスクを提案する。
入力をマスクする代わりに、いくつかのトークンを小さなジェネレータネットワークからサンプリングした有望な代替品に置き換えることで、この手法を悪用します。
そこで, 劣化したトークンの同一性を予測するモデルを訓練する代わりに, 劣化した入力の各トークンがジェネレータのサンプルに置き換えられたかどうかを予測する識別モデルを訓練する。
詳細な実験により、この新しい事前学習タスクは、マスクアウトされた小さなサブセットだけでなく、すべての入力トークン上で定義されたため、MLMよりも効率的であることが示されている。
その結果,我々の手法で学習した文脈表現は,同じモデルサイズ,データ,計算量で,BERTが学習したものよりも大幅に優れていた。
例えば、1つのGPU上で4日間モデルをトレーニングし、GLUE自然言語理解ベンチマークでGPT(30倍の計算でトレーニング)を上回っます。
提案手法は,RoBERTaやXLNetと互換性があり,計算量の1/4以下であり,同じ計算量を使用する場合,性能が優れている。
関連論文リスト
- Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens [31.568675300434816]
言語モデルは、トレーニングデータセットで過去のトークンが与えられた次のトークンの可能性を最大化するためにしばしば訓練される。
推論時間の間は、前述したトークンを入力として次のトークンを予測することによって、テキストを逐次かつ自動回帰的に生成する。
本稿では、モデル自己生成に基づく2つの簡単なアプローチを提案し、この訓練時間と推論時間との相違に対処する。
論文 参考訳(メタデータ) (2024-10-18T17:48:27Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Simple and Scalable Strategies to Continually Pre-train Large Language Models [20.643648785602462]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。
学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文 参考訳(メタデータ) (2024-03-13T17:58:57Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and
Effective Text Generation [97.64625999380425]
事前学習言語モデル(PLM)のアプローチによるテキスト生成タスクについて検討する。
早期出口技術を活用することで、ELMERは予測信頼度に応じて異なるレイヤでのトークン生成を可能にする。
3つのテキスト生成タスクの実験では、EMMERはNARモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-24T14:46:47Z) - Token Dropping for Efficient BERT Pretraining [33.63507016806947]
本研究では,変圧器モデルの事前学習を高速化する簡易かつ効果的な「トーケンドロップ」手法を開発した。
我々は既に組み込まれているマスキング言語モデリング(MLM)の損失を利用して、計算オーバーヘッドのない重要でないトークンを識別する。
この単純なアプローチは、BERTの事前トレーニングコストを25%削減し、標準の下流タスクで同様の微調整性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T17:50:46Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z) - MPNet: Masked and Permuted Pre-training for Language Understanding [158.63267478638647]
MPNetはBERTとXLNetの利点を継承し、制限を回避する新しい事前トレーニング手法である。
我々は,大規模データセット(160GB以上のテキストコーパス)とさまざまなダウンストリームタスクの微調整を行う。
その結果,MPNet は実験と PLM を大きなマージンで上回り,従来の最先端の事前学習手法と比較して,これらの課題に対して良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-04-20T13:54:12Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。