論文の概要: Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained
Models
- arxiv url: http://arxiv.org/abs/2205.15223v1
- Date: Mon, 30 May 2022 16:32:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 14:16:28.394970
- Title: Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained
Models
- Title(参考訳): prompting electra: 判別事前学習モデルを用いた少数ショット学習
- Authors: Mengzhou Xia, Mikel Artetxe, Jingfei Du, Danqi Chen, Ves Stoyanov
- Abstract要約: ELECTRAにプロンプトベースの数ショット学習を適用し,幅広いタスクにおいてマスキング言語モデルを上回る性能を示す。
本手法は,余分な計算オーバーヘッドを伴わずに,マルチトークン予測を含むタスクに容易に適応できる。
- 参考スコア(独自算出の注目度): 43.7024573212373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained masked language models successfully perform few-shot learning by
formulating downstream tasks as text infilling. However, as a strong
alternative in full-shot settings, discriminative pre-trained models like
ELECTRA do not fit into the paradigm. In this work, we adapt prompt-based
few-shot learning to ELECTRA and show that it outperforms masked language
models in a wide range of tasks. ELECTRA is pre-trained to distinguish if a
token is generated or original. We naturally extend that to prompt-based
few-shot learning by training to score the originality of the target options
without introducing new parameters. Our method can be easily adapted to tasks
involving multi-token predictions without extra computation overhead. Analysis
shows that ELECTRA learns distributions that align better with downstream
tasks.
- Abstract(参考訳): 事前学習されたマスク言語モデルは、ダウンストリームタスクをテキストインフィルングとして定式化することで、少数ショット学習を成功させた。
しかしながら、フルショット設定において強力な選択肢として、electraのような差別的事前訓練されたモデルはパラダイムに適合しない。
本研究では,ELECTRAにプロンプトベースの数ショット学習を適用し,幅広いタスクにおいてマスキング言語モデルを上回る性能を示す。
ELECTRAはトークンが生成されるかオリジナルであるかを区別するために事前訓練される。
そこで我々は自然に,新たなパラメータを導入することなく,対象オプションの独自性を評価する訓練によって,プロンプトベースの数ショット学習に拡張する。
本手法は,余分な計算オーバーヘッドを伴わずに,マルチトークン予測を含むタスクに容易に適応できる。
分析の結果、electraは下流のタスクに合致する分布を学習する。
関連論文リスト
- Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - ELECTRA is a Zero-Shot Learner, Too [14.315501760755609]
「プレトレイン・プロンプト・予測」は「プレトレイン・ファイン・チューン」のパラダイムに比べて目覚ましい成果を上げている。
本稿では,代用トークン検出(RTD)に基づくプロンプト学習手法を提案する。
実験結果から,RTD-prompt 学習に基づくELECTRAモデルが驚くほど最先端のゼロショット性能を実現することが示された。
論文 参考訳(メタデータ) (2022-07-17T11:20:58Z) - Training ELECTRA Augmented with Multi-word Selection [53.77046731238381]
本稿では,マルチタスク学習に基づくELECTRAの改良を目的としたテキストエンコーダ事前学習手法を提案する。
具体的には、識別器を訓練し、置換トークンを同時に検出し、候補集合から元のトークンを選択する。
論文 参考訳(メタデータ) (2021-05-31T23:19:00Z) - Pre-Training Transformers as Energy-Based Cloze Models [95.04748595976811]
テキストによる表現学習のためのエネルギーベースクローゼモデルであるElectricを導入する。
electricはマスキングを使用しず、コンテキスト内で発生したトークンに対して完全な分散を出力しない。
ノイズコントラスト推定に基づくアルゴリズムを用いて電気を訓練し、この学習目標が最近提案されたELECTRAプリトレーニング方法と密接に関連しているかを解明する。
論文 参考訳(メタデータ) (2020-12-15T19:17:33Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。