論文の概要: Directed Acyclic Transformer Pre-training for High-quality
Non-autoregressive Text Generation
- arxiv url: http://arxiv.org/abs/2304.11791v1
- Date: Mon, 24 Apr 2023 02:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 16:16:34.625059
- Title: Directed Acyclic Transformer Pre-training for High-quality
Non-autoregressive Text Generation
- Title(参考訳): 高品質非自己回帰テキスト生成のための非循環変換器事前学習
- Authors: Fei Huang, Pei Ke, Minlie Huang
- Abstract要約: 非AutoRegressive (NAR) テキスト生成モデルは、デコード速度が大幅に速く、機械翻訳の質が良いため、多くの注目を集めている。
既存のNARモデルは適切な事前訓練を欠いており、まだ訓練済みの自己回帰モデルよりはるかに遅れている。
我々は,NAR生成における予測整合性を促進するために,事前訓練された非巡回変圧器を提案する。
- 参考スコア(独自算出の注目度): 98.37871690400766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-AutoRegressive (NAR) text generation models have drawn much attention
because of their significantly faster decoding speed and good generation
quality in machine translation. However, in a wider range of text generation
tasks, existing NAR models lack proper pre-training, making them still far
behind the pre-trained autoregressive models. In this paper, we propose
Pre-trained Directed Acyclic Transformer (PreDAT) and a novel pre-training task
to promote prediction consistency in NAR generation. Experiments on five text
generation tasks show that our PreDAT remarkably outperforms existing
pre-trained NAR models (+4.2 scores on average) and even achieves better
results than pre-trained autoregressive baselines in n-gram-based metrics,
along with 17 times speedup in throughput. Further analysis shows that PreDAT
benefits from the unbiased prediction order that alleviates the error
accumulation problem in autoregressive generation, which provides new insights
into the advantages of NAR generation.
- Abstract(参考訳): 非AutoRegressive (NAR)テキスト生成モデルは、デコード速度が大幅に速く、機械翻訳の質が良いため、多くの注目を集めている。
しかし、幅広いテキスト生成タスクにおいて、既存のNARモデルは適切な事前学習を欠いているため、事前訓練された自己回帰モデルよりもはるかに遅れている。
本稿では,NAR生成における予測整合性を促進するために,事前学習型非巡回変圧器(PreDAT)と新たな事前学習タスクを提案する。
5つのテキスト生成タスクの実験によると、PreDATは既存のトレーニング済みNARモデル(平均4.2スコア)を著しく上回り、n-gramベースのメトリクスのトレーニング済みの自己回帰ベースラインよりも優れた結果が得られる。
さらなる分析により、predatは自己回帰生成におけるエラー蓄積問題を緩和する偏りのない予測順序の恩恵を受けることを示し、nar生成の利点に対する新たな洞察を与える。
関連論文リスト
- UT5: Pretraining Non autoregressive T5 with unrolled denoising [9.656399724144192]
自動回帰型T5モデルの教師なし事前訓練について,非学習型聴覚障害者を用いて検討した。
我々は,SQuAD質問生成やXSumなどの下流生成タスクにおいて,そのSoTA結果を示した。
論文 参考訳(メタデータ) (2023-11-14T21:28:10Z) - Dynamic Scheduled Sampling with Imitation Loss for Neural Text
Generation [10.306522595622651]
トレーニング時間精度のみに基づいてスケジュールを維持するDySI(Dynamic Scheduled Sampling with Imitation Loss)を導入する。
DySIは標準的な機械翻訳ベンチマークの顕著な改善を実現し、他のテキスト生成モデルの堅牢性を大幅に改善した。
論文 参考訳(メタデータ) (2023-01-31T16:41:06Z) - A Self-Paced Mixed Distillation Method for Non-Autoregressive Generation [135.84684279852098]
非自己回帰(NAR)モデルは、様々な言語生成タスクにおけるオート回帰(AR)モデルの性能が著しく低い。
NARモデルの中で、BANGは英語未ラベルの原文コーパス上で最初の大規模事前学習モデルである。
そこで本研究では,BANGの生成品質をさらに向上させる,自己ペースト混合蒸留法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:54:53Z) - A Survey on Non-Autoregressive Generation for Neural Machine Translation
and Beyond [145.43029264191543]
非自己回帰(NAR)生成は推論を高速化するために機械翻訳(NMT)で最初に提案される。
NAR生成は機械翻訳を著しく加速させるが、自己回帰(AR)生成の推論は翻訳精度を犠牲にする。
NAR生成とAR生成の精度ギャップを埋めるために、多くの新しいモデルとアルゴリズムが設計/提案されている。
論文 参考訳(メタデータ) (2022-04-20T07:25:22Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - Non-Autoregressive Text Generation with Pre-trained Language Models [40.50508206201288]
BERTはNAGモデルのバックボーンとして利用でき、性能を大幅に向上できることを示す。
バニラNAGモデルの2つの共通問題を緩和するメカニズムを考案する。
本稿では,出力長を事前に推定できる新しいデコード戦略である ratio-first を提案する。
論文 参考訳(メタデータ) (2021-02-16T15:30:33Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。