論文の概要: Pre-Training Transformers as Energy-Based Cloze Models
- arxiv url: http://arxiv.org/abs/2012.08561v1
- Date: Tue, 15 Dec 2020 19:17:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:27:38.649024
- Title: Pre-Training Transformers as Energy-Based Cloze Models
- Title(参考訳): エネルギーベースクローズモデルとしてのプレトレーニングトランス
- Authors: Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning
- Abstract要約: テキストによる表現学習のためのエネルギーベースクローゼモデルであるElectricを導入する。
electricはマスキングを使用しず、コンテキスト内で発生したトークンに対して完全な分散を出力しない。
ノイズコントラスト推定に基づくアルゴリズムを用いて電気を訓練し、この学習目標が最近提案されたELECTRAプリトレーニング方法と密接に関連しているかを解明する。
- 参考スコア(独自算出の注目度): 95.04748595976811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Electric, an energy-based cloze model for representation
learning over text. Like BERT, it is a conditional generative model of tokens
given their contexts. However, Electric does not use masking or output a full
distribution over tokens that could occur in a context. Instead, it assigns a
scalar energy score to each input token indicating how likely it is given its
context. We train Electric using an algorithm based on noise-contrastive
estimation and elucidate how this learning objective is closely related to the
recently proposed ELECTRA pre-training method. Electric performs well when
transferred to downstream tasks and is particularly effective at producing
likelihood scores for text: it re-ranks speech recognition n-best lists better
than language models and much faster than masked language models. Furthermore,
it offers a clearer and more principled view of what ELECTRA learns during
pre-training.
- Abstract(参考訳): テキストによる表現学習のためのエネルギーベースクローゼモデルであるElectricを導入する。
BERTと同様に、コンテキストが与えられたトークンの条件付き生成モデルである。
しかし、electricはマスキングを使用しず、コンテキスト内で発生したトークンに対する完全な分散を出力しない。
代わりに、各入力トークンにスカラーエネルギースコアを割り当て、そのコンテキストがどの程度の確率で与えられるかを示す。
我々は、ノイズコントラスト推定に基づくアルゴリズムを用いてElectricを訓練し、この学習目的が最近提案されたELECTRA事前学習手法とどのように密接に関連しているかを明らかにする。
electricは下流のタスクに転送されるとうまく動作し、テキストの確率スコアを作成するのに特に効果的である: 音声認識n-bestリストを言語モデルよりも良くランク付けし、マスクされた言語モデルよりもずっと高速である。
さらに、事前トレーニング中にelectraが学んだことを明確にし、より原則的に見ることもできる。
関連論文リスト
- Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - Exploring Energy-based Language Models with Different Architectures and
Training Methods for Speech Recognition [23.970716487502273]
エネルギーベース言語モデル(ELM)は、自然文の非正規化分布をパラメータ化する。
本稿では,エネルギ関数の異なるアーキテクチャと異なるトレーニング手法について検討し,音声認識におけるEMMの能力について検討する。
論文 参考訳(メタデータ) (2023-05-22T03:28:48Z) - Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained
Models [43.7024573212373]
ELECTRAにプロンプトベースの数ショット学習を適用し,幅広いタスクにおいてマスキング言語モデルを上回る性能を示す。
本手法は,余分な計算オーバーヘッドを伴わずに,マルチトークン予測を含むタスクに容易に適応できる。
論文 参考訳(メタデータ) (2022-05-30T16:32:30Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Joint Energy-based Model Training for Better Calibrated Natural Language
Understanding Models [61.768082640087]
自然言語理解タスクのための事前学習テキストエンコーダの微調整中に、共同エネルギーベースモデル(EBM)トレーニングを検討します。
実験では、EMMトレーニングはモデルが強力なベースラインに匹敵するより良いキャリブレーションに達するのに役立つことが示されています。
論文 参考訳(メタデータ) (2021-01-18T01:41:31Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。