論文の概要: ELECTRA is a Zero-Shot Learner, Too
- arxiv url: http://arxiv.org/abs/2207.08141v1
- Date: Sun, 17 Jul 2022 11:20:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 16:16:24.282032
- Title: ELECTRA is a Zero-Shot Learner, Too
- Title(参考訳): ELECTRAは、ゼロショットの学習者でもある
- Authors: Shiwen Ni and Hung-Yu Kao
- Abstract要約: 「プレトレイン・プロンプト・予測」は「プレトレイン・ファイン・チューン」のパラダイムに比べて目覚ましい成果を上げている。
本稿では,代用トークン検出(RTD)に基づくプロンプト学習手法を提案する。
実験結果から,RTD-prompt 学習に基づくELECTRAモデルが驚くほど最先端のゼロショット性能を実現することが示された。
- 参考スコア(独自算出の注目度): 14.315501760755609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, for few-shot or even zero-shot learning, the new paradigm
"pre-train, prompt, and predict" has achieved remarkable achievements compared
with the "pre-train, fine-tune" paradigm. After the success of prompt-based
GPT-3, a series of masked language model (MLM)-based (e.g., BERT, RoBERTa)
prompt learning methods became popular and widely used. However, another
efficient pre-trained discriminative model, ELECTRA, has probably been
neglected. In this paper, we attempt to accomplish several NLP tasks in the
zero-shot scenario using a novel our proposed replaced token detection
(RTD)-based prompt learning method. Experimental results show that ELECTRA
model based on RTD-prompt learning achieves surprisingly state-of-the-art
zero-shot performance. Numerically, compared to MLM-RoBERTa-large and
MLM-BERT-large, our RTD-ELECTRA-large has an average of about 8.4% and 13.7%
improvement on all 15 tasks. Especially on the SST-2 task, our
RTD-ELECTRA-large achieves an astonishing 90.1% accuracy without any training
data. Overall, compared to the pre-trained masked language models, the
pre-trained replaced token detection model performs better in zero-shot
learning. Therefore, ELECTRA is an excellent zero-shot learner. The source code
is available at: https://github.com/nishiwen1214/RTD-ELECTRA.
- Abstract(参考訳): 近年,数発あるいはゼロショットの学習において,新しいパラダイムである"pre-train, prompt, and predict"は,"pre-train, fine-tune"パラダイムと比較して,目覚ましい成果を上げた。
プロンプトベースのgpt-3の成功の後、一連のマスク言語モデル(mlm)ベースのプロンプト学習法(bert、robertaなど)が普及し、広く使われるようになった。
しかし、別の効率的な事前訓練型識別モデルELECTRAは、おそらく無視されている。
本稿では,代用トークン検出(RTD)に基づく高速学習手法を提案することで,ゼロショットシナリオにおける複数のNLPタスクの実現を試みた。
実験結果から,RTD-prompt 学習に基づくELECTRAモデルが驚くほど最先端のゼロショット性能を実現することが示された。
数値的には,MLM-RoBERTa-largeとMLM-BERT-largeと比較して,RTD-ELECTRA-largeは平均8.4%,13.7%改善している。
特にSST-2タスクでは、RTD-ELECTRA-largeはトレーニングデータなしで驚くべき90.1%の精度を実現している。
全体として、事前学習されたマスク言語モデルと比較して、訓練済みのトークン検出モデルの方がゼロショット学習において優れた性能を発揮する。
したがって、ELECTRAは優れたゼロショット学習者である。
ソースコードはhttps://github.com/ nishiwen1214/rtd-electra。
関連論文リスト
- Tuning Language Models as Training Data Generators for
Augmentation-Enhanced Few-Shot Learning [30.65315081964461]
プレトレーニング言語モデル(PLM)を用いて、異なる視点から数発の学習を学習する。
まず,数発のサンプルに対して自己回帰型PLMをチューニングし,それをジェネレータとして使用して,大量の新規トレーニングサンプルを合成する。
我々のアプローチであるFewGenは、GLUEベンチマークの7つの分類タスクに対して、既存の数ショット学習方法よりも総合的に優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-06T06:46:47Z) - Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained
Models [43.7024573212373]
ELECTRAにプロンプトベースの数ショット学習を適用し,幅広いタスクにおいてマスキング言語モデルを上回る性能を示す。
本手法は,余分な計算オーバーヘッドを伴わずに,マルチトークン予測を含むタスクに容易に適応できる。
論文 参考訳(メタデータ) (2022-05-30T16:32:30Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - To Pretrain or Not to Pretrain: Examining the Benefits of Pretraining on
Resource Rich Tasks [25.05882459314221]
トレーニングサンプルの数が数百万に増加するにつれ,細粒化BERTモデルと訓練用バニラLSTMとの精度のギャップは,スクラッチ狭さから1%以内に拡大した。
その結果,教師付きデータのサイズが大幅に大きくなるにつれて,事前学習したモデルではリターンポイントが低下する可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-15T18:18:59Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。