論文の概要: MC-BERT: Efficient Language Pre-Training via a Meta Controller
- arxiv url: http://arxiv.org/abs/2006.05744v2
- Date: Tue, 16 Jun 2020 09:15:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:11:36.185136
- Title: MC-BERT: Efficient Language Pre-Training via a Meta Controller
- Title(参考訳): MC-BERT:メタコントローラによる効率的な言語事前学習
- Authors: Zhenhui Xu, Linyuan Gong, Guolin Ke, Di He, Shuxin Zheng, Liwei Wang,
Jiang Bian, Tie-Yan Liu
- Abstract要約: 大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 96.68140474547602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained contextual representations (e.g., BERT) have become the
foundation to achieve state-of-the-art results on many NLP tasks. However,
large-scale pre-training is computationally expensive. ELECTRA, an early
attempt to accelerate pre-training, trains a discriminative model that predicts
whether each input token was replaced by a generator. Our studies reveal that
ELECTRA's success is mainly due to its reduced complexity of the pre-training
task: the binary classification (replaced token detection) is more efficient to
learn than the generation task (masked language modeling). However, such a
simplified task is less semantically informative. To achieve better efficiency
and effectiveness, we propose a novel meta-learning framework, MC-BERT. The
pre-training task is a multi-choice cloze test with a reject option, where a
meta controller network provides training input and candidates. Results over
GLUE natural language understanding benchmark demonstrate that our proposed
method is both efficient and effective: it outperforms baselines on GLUE
semantic tasks given the same computational budget.
- Abstract(参考訳): 事前訓練された文脈表現(例えばBERT)は多くのNLPタスクで最先端の結果を達成する基盤となっている。
しかし、大規模な事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本研究により,ELECTRAの成功は主に事前学習タスクの複雑さの低減によるものであることが判明した。二項分類(置換トークン検出)は生成タスク(マスク言語モデリング)よりも学習が効率的である。
しかし、このような単純化されたタスクは意味的にはあまり意味を成さない。
そこで本研究では,新しいメタ学習フレームワークMC-BERTを提案する。
事前トレーニングタスクは、メタコントローラネットワークがトレーニング入力と候補を提供するrejectオプションを備えたマルチチョースクローズテストである。
GLUE自然言語理解ベンチマークによる結果から,提案手法は効率的かつ効果的であることが示された。
関連論文リスト
- Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained
Models [43.7024573212373]
ELECTRAにプロンプトベースの数ショット学習を適用し,幅広いタスクにおいてマスキング言語モデルを上回る性能を示す。
本手法は,余分な計算オーバーヘッドを伴わずに,マルチトークン予測を含むタスクに容易に適応できる。
論文 参考訳(メタデータ) (2022-05-30T16:32:30Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Training ELECTRA Augmented with Multi-word Selection [53.77046731238381]
本稿では,マルチタスク学習に基づくELECTRAの改良を目的としたテキストエンコーダ事前学習手法を提案する。
具体的には、識別器を訓練し、置換トークンを同時に検出し、候補集合から元のトークンを選択する。
論文 参考訳(メタデータ) (2021-05-31T23:19:00Z) - Self-Supervised Meta-Learning for Few-Shot Natural Language
Classification Tasks [40.97125791174191]
ラベルのないテキストから大規模でリッチなメタ学習タスク分布を生成するための自己教師型手法を提案する。
このメタトレーニングは、言語モデル事前学習の後に微調整を行うよりも、数ショットの一般化に繋がることを示す。
論文 参考訳(メタデータ) (2020-09-17T17:53:59Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。