論文の概要: ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and
Effective Text Generation
- arxiv url: http://arxiv.org/abs/2210.13304v1
- Date: Mon, 24 Oct 2022 14:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:52:11.816302
- Title: ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and
Effective Text Generation
- Title(参考訳): ELMER: 効率的なテキスト生成のための非自己回帰事前訓練型言語モデル
- Authors: Junyi Li, Tianyi Tang, Wayne Xin Zhao, Jian-Yun Nie and Ji-Rong Wen
- Abstract要約: 事前学習言語モデル(PLM)のアプローチによるテキスト生成タスクについて検討する。
早期出口技術を活用することで、ELMERは予測信頼度に応じて異なるレイヤでのトークン生成を可能にする。
3つのテキスト生成タスクの実験では、EMMERはNARモデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 97.64625999380425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the text generation task under the approach of pre-trained language
models (PLMs). Typically, an auto-regressive (AR) method is adopted for
generating texts in a token-by-token manner. Despite many advantages of AR
generation, it usually suffers from inefficient inference. Therefore,
non-autoregressive (NAR) models are proposed to generate all target tokens
simultaneously. However, NAR models usually generate texts of lower quality due
to the absence of token dependency in the output text. In this paper, we
propose ELMER: an efficient and effective PLM for NAR text generation to
explicitly model the token dependency during NAR generation. By leveraging the
early exit technique, ELMER enables the token generations at different layers,
according to their prediction confidence (a more confident token will exit at a
lower layer). Besides, we propose a novel pre-training objective, Layer
Permutation Language Modeling, to pre-train ELMER by permuting the exit layer
for each token in sequences. Experiments on three text generation tasks show
that ELMER significantly outperforms NAR models and further narrows the
performance gap with AR PLMs (\eg ELMER (29.92) vs BART (30.61) ROUGE-L in
XSUM) while achieving over 10 times inference speedup.
- Abstract(参考訳): 本研究では,事前学習言語モデル(PLM)に基づくテキスト生成タスクについて検討する。
典型的には、トークン・バイ・トケン方式でテキストを生成するために自動回帰(ar)方式が採用されている。
AR生成の多くの利点にもかかわらず、通常は非効率な推論に悩まされる。
したがって、全てのターゲットトークンを同時に生成するために、非自己回帰(NAR)モデルを提案する。
しかしながら、NARモデルは、通常、出力テキストにトークン依存がないため、低い品質のテキストを生成する。
本稿では,NARテキスト生成におけるトークン依存性を明示的にモデル化する,効率的かつ効果的な PLM である ELMER を提案する。
早期終了技術を活用することで、ELMERは予測信頼性(より確実なトークンは下位層で終了する)に従って、異なるレイヤでのトークン生成を可能にする。
さらに,新しい事前学習目標であるレイヤ置換言語モデリングを提案し,各トークンの終了層をシーケンスで置換することにより,エルマーを事前学習する。
3つのテキスト生成タスクの実験では、ERMERはAR PLMs (29.92) 対 BART (30.61) ROUGE-L (XSUM) と性能ギャップを狭くし、10倍以上の推論速度を達成する。
関連論文リスト
- Attentive Multi-Layer Perceptron for Non-autoregressive Generation [46.14195464583495]
非自己回帰(NAR)生成は、その効率性と有効性の増加で人気が高まる。
本稿では,線形時間と空間の複雑さを持つ生成モデルを生成するために,新しい変種textbfAttentive textbfMulti-textbfLayer textbfPerceptron(AMLP)を提案する。
論文 参考訳(メタデータ) (2023-10-14T06:44:24Z) - AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation [138.98095392584693]
本稿では,自己回帰拡散(AR-Diffusion)を導入し,自然言語の固有な逐次特性について考察する。
AR拡散は、右のトークンの生成が左の生成されたトークンに依存することを保証します。
様々なテキスト生成タスクに関する一連の実験において、AR-Diffusionは既存の拡散言語モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-05-16T15:10:22Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - A Self-Paced Mixed Distillation Method for Non-Autoregressive Generation [135.84684279852098]
非自己回帰(NAR)モデルは、様々な言語生成タスクにおけるオート回帰(AR)モデルの性能が著しく低い。
NARモデルの中で、BANGは英語未ラベルの原文コーパス上で最初の大規模事前学習モデルである。
そこで本研究では,BANGの生成品質をさらに向上させる,自己ペースト混合蒸留法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:54:53Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。