論文の概要: Training ELECTRA Augmented with Multi-word Selection
- arxiv url: http://arxiv.org/abs/2106.00139v1
- Date: Mon, 31 May 2021 23:19:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:27:34.290640
- Title: Training ELECTRA Augmented with Multi-word Selection
- Title(参考訳): 複数単語選択によるELECTRA訓練
- Authors: Jiaming Shen, Jialu Liu, Tianqi Liu, Cong Yu, Jiawei Han
- Abstract要約: 本稿では,マルチタスク学習に基づくELECTRAの改良を目的としたテキストエンコーダ事前学習手法を提案する。
具体的には、識別器を訓練し、置換トークンを同時に検出し、候補集合から元のトークンを選択する。
- 参考スコア(独自算出の注目度): 53.77046731238381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained text encoders such as BERT and its variants have recently
achieved state-of-the-art performances on many NLP tasks. While being
effective, these pre-training methods typically demand massive computation
resources. To accelerate pre-training, ELECTRA trains a discriminator that
predicts whether each input token is replaced by a generator. However, this new
task, as a binary classification, is less semantically informative. In this
study, we present a new text encoder pre-training method that improves ELECTRA
based on multi-task learning. Specifically, we train the discriminator to
simultaneously detect replaced tokens and select original tokens from candidate
sets. We further develop two techniques to effectively combine all pre-training
tasks: (1) using attention-based networks for task-specific heads, and (2)
sharing bottom layers of the generator and the discriminator. Extensive
experiments on GLUE and SQuAD datasets demonstrate both the effectiveness and
the efficiency of our proposed method.
- Abstract(参考訳): BERTなどの事前訓練されたテキストエンコーダは、最近多くのNLPタスクで最先端のパフォーマンスを達成した。
有効性はあるものの、これらの事前学習手法は一般に大量の計算資源を必要とする。
プリトレーニングを加速するためにelectraは、各入力トークンがジェネレータに置き換えられるかどうかを予測する識別器を訓練する。
しかし、この新しいタスクはバイナリ分類として、意味的にはあまり意味的ではない。
本研究では,マルチタスク学習に基づくエレクトラを改善する新しいテキストエンコーダ事前学習手法を提案する。
具体的には、識別器を訓練し、置換トークンを同時に検出し、候補集合から元のトークンを選択する。
さらに,(1)タスク固有の頭部に注意型ネットワークを利用する,(2)ジェネレータと識別器の底層を共有する,という2つの事前学習タスクを効果的に組み合わせる手法を開発した。
GLUEとSQuADデータセットの大規模な実験により,提案手法の有効性と有効性を示した。
関連論文リスト
- Prompt Optimization via Adversarial In-Context Learning [51.18075178593142]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - A Novel Plagiarism Detection Approach Combining BERT-based Word
Embedding, Attention-based LSTMs and an Improved Differential Evolution
Algorithm [11.142354615369273]
本稿では,アテンション機構に基づく長短期メモリ(LSTM)とトランスフォーマー(BERT)ワード埋め込みによる双方向エンコーダ表現に基づくプラギアリズム検出手法を提案する。
BERTは下流タスクに含まれることができ、タスク固有の構造として微調整され、訓練されたBERTモデルは様々な言語特性を検出することができる。
論文 参考訳(メタデータ) (2023-05-03T18:26:47Z) - Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained
Models [43.7024573212373]
ELECTRAにプロンプトベースの数ショット学習を適用し,幅広いタスクにおいてマスキング言語モデルを上回る性能を示す。
本手法は,余分な計算オーバーヘッドを伴わずに,マルチトークン予測を含むタスクに容易に適応できる。
論文 参考訳(メタデータ) (2022-05-30T16:32:30Z) - Knowledge Transfer by Discriminative Pre-training for Academic
Performance Prediction [5.3431413737671525]
本稿では,学業成績予測のための差別的事前学習タスクを用いた転帰学習フレームワークであるDPAを提案する。
従来の最先端生成事前学習法と比較して、DPAはよりサンプリング効率が良く、より低いアカデミック性能予測誤差に迅速に収束する。
論文 参考訳(メタデータ) (2021-06-28T13:02:23Z) - Learning to Sample Replacements for ELECTRA Pre-Training [40.17248997321726]
ELECTRAは、置換トークンを検出するために識別器を事前訓練し、置換はマスク付き言語モデリングで訓練されたジェネレータからサンプリングされる。
この性能にもかかわらず、ELECTRAは以下の2つの問題に悩まされている。
ELECTRA事前学習における置換サンプリングを改善する2つの方法を提案する。
論文 参考訳(メタデータ) (2021-06-25T15:51:55Z) - Training Generative Adversarial Networks in One Stage [58.983325666852856]
本稿では,1段階のみに効率よくGANを訓練できる汎用的なトレーニング手法を提案する。
提案手法は,データフリーな知識蒸留など,他の逆学習シナリオにも容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-02-28T09:03:39Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z) - Data-Free Knowledge Amalgamation via Group-Stack Dual-GAN [80.17705319689139]
複数のシングルタスク/マルチタスクの教師から,多タスクの学生ネットワークを構築するために,データフリーな知識アマルガメート戦略を提案する。
トレーニングデータを持たない提案手法は, フル教師付き手法と比較して, 驚くほど競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-03-20T03:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。