論文の概要: Learning to Sample Replacements for ELECTRA Pre-Training
- arxiv url: http://arxiv.org/abs/2106.13715v1
- Date: Fri, 25 Jun 2021 15:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 13:08:49.493184
- Title: Learning to Sample Replacements for ELECTRA Pre-Training
- Title(参考訳): ELECTRA事前学習のためのサンプル交換の学習
- Authors: Yaru Hao, Li Dong, Hangbo Bao, Ke Xu, Furu Wei
- Abstract要約: ELECTRAは、置換トークンを検出するために識別器を事前訓練し、置換はマスク付き言語モデリングで訓練されたジェネレータからサンプリングされる。
この性能にもかかわらず、ELECTRAは以下の2つの問題に悩まされている。
ELECTRA事前学習における置換サンプリングを改善する2つの方法を提案する。
- 参考スコア(独自算出の注目度): 40.17248997321726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ELECTRA pretrains a discriminator to detect replaced tokens, where the
replacements are sampled from a generator trained with masked language
modeling. Despite the compelling performance, ELECTRA suffers from the
following two issues. First, there is no direct feedback loop from
discriminator to generator, which renders replacement sampling inefficient.
Second, the generator's prediction tends to be over-confident along with
training, making replacements biased to correct tokens. In this paper, we
propose two methods to improve replacement sampling for ELECTRA pre-training.
Specifically, we augment sampling with a hardness prediction mechanism, so that
the generator can encourage the discriminator to learn what it has not
acquired. We also prove that efficient sampling reduces the training variance
of the discriminator. Moreover, we propose to use a focal loss for the
generator in order to relieve oversampling of correct tokens as replacements.
Experimental results show that our method improves ELECTRA pre-training on
various downstream tasks.
- Abstract(参考訳): ELECTRAは、置換トークンを検出するために識別器を事前訓練し、置換はマスク付き言語モデリングで訓練されたジェネレータからサンプリングされる。
この性能にもかかわらず、ELECTRAは以下の2つの問題に悩まされている。
まず、判別器からジェネレータへの直接フィードバックループはなく、置換サンプリングが非効率になる。
第二に、ジェネレータの予測はトレーニングとともに過信される傾向があり、置換は正しいトークンに偏っている。
本稿では,エレクトラプリトレーニングのための代替サンプリングを改善する2つの手法を提案する。
具体的には,識別器が取得していないものを学習できるように,硬度予測機構によるサンプリングを増強する。
また,効率的なサンプリングが判別器のトレーニング分散を減少させることを示す。
さらに,代用として適切なトークンのオーバーサンプリングを緩和するために,発電機の焦点損失を利用する。
実験の結果,提案手法は様々な下流タスクにおけるELECTRA事前学習を改善することがわかった。
関連論文リスト
- Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Effective Pre-Training Objectives for Transformer-based Autoencoders [97.99741848756302]
トランスフォーマーエンコーダの効率,コスト,精度のトレードオフについて検討する。
共通の目的の機能を組み合わせて、新しい効果的な事前学習アプローチを作成します。
論文 参考訳(メタデータ) (2022-10-24T18:39:44Z) - Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained
Models [43.7024573212373]
ELECTRAにプロンプトベースの数ショット学習を適用し,幅広いタスクにおいてマスキング言語モデルを上回る性能を示す。
本手法は,余分な計算オーバーヘッドを伴わずに,マルチトークン予測を含むタスクに容易に適応できる。
論文 参考訳(メタデータ) (2022-05-30T16:32:30Z) - Training ELECTRA Augmented with Multi-word Selection [53.77046731238381]
本稿では,マルチタスク学習に基づくELECTRAの改良を目的としたテキストエンコーダ事前学習手法を提案する。
具体的には、識別器を訓練し、置換トークンを同時に検出し、候補集合から元のトークンを選択する。
論文 参考訳(メタデータ) (2021-05-31T23:19:00Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - The Hidden Tasks of Generative Adversarial Networks: An Alternative
Perspective on GAN Training [1.964574177805823]
我々は、GAN(Generative Adversarial Network)のトレーニングに関する代替的視点を示す。
GANジェネレータのトレーニングステップが2つの暗黙のサブプロブレムに分解されることを示す。
本研究は,本研究の主な理論的成果を実験的に検証し,代替トレーニング手法の意義について考察する。
論文 参考訳(メタデータ) (2021-01-28T08:17:29Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。