論文の概要: BANG: Bridging Autoregressive and Non-autoregressive Generation with
Large Scale Pretraining
- arxiv url: http://arxiv.org/abs/2012.15525v2
- Date: Thu, 18 Feb 2021 11:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:15:32.584168
- Title: BANG: Bridging Autoregressive and Non-autoregressive Generation with
Large Scale Pretraining
- Title(参考訳): BANG: 大規模プレトレーニングによる自己回帰・非自己回帰生成
- Authors: Weizhen Qi, Yeyun Gong, Jian Jiao, Yu Yan, Dayiheng Liu, Weizhu Chen,
Kewen Tang, Houqiang Li, Jiusheng Chen, Ruofei Zhang, Ming Zhou, Nan Duan
- Abstract要約: 自己回帰(AR)と非自己回帰(NAR)生成のギャップを埋める新しい事前学習モデルであるBANGを提案する。
AR と NAR の生成は,従来のトークンがどの程度参加可能か,BANG は AR と NAR の生成を,大規模事前学習のための新しいモデル構造を設計することによって一様とみなすことができる。
- 参考スコア(独自算出の注目度): 92.14550479749587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose BANG, a new pretraining model to Bridge the gap
between Autoregressive (AR) and Non-autoregressive (NAR) Generation. AR and NAR
generation can be uniformly regarded as to what extent previous tokens can be
attended, and BANG bridges AR and NAR generation by designing a novel model
structure for large-scale pretraining. The pretrained BANG model can
simultaneously support AR, NAR and semi-NAR generation to meet different
requirements. Experiments on question generation (SQuAD 1.1), summarization
(XSum) and dialogue generation (PersonaChat) show that BANG improves NAR and
semi-NAR performance significantly as well as attaining comparable performance
with strong AR pretrained models. Compared with the semi-NAR strong baselines,
BANG achieves absolute improvements of 14.01 and 5.24 in the overall scores of
SQuAD 1.1 and XSum, respectively. In addition, BANG achieves absolute
improvements of 10.73, 6.39 and 5.90 in the overall scores of SQuAD, XSUM and
PersonaChat respectively compared with the strong NAR baselines. Our code will
be made publicly available at https://github.com/microsoft/BANG .
- Abstract(参考訳): 本稿では,自己回帰(AR)と非自己回帰(NAR)生成のギャップを埋める新たな事前学習モデルであるBANGを提案する。
AR と NAR の生成は,従来のトークンがどの程度参加可能か,BANG は AR と NAR の生成を大規模事前学習のための新しいモデル構造を設計することによって一様とみなすことができる。
事前訓練されたBANGモデルは、異なる要件を満たすために、同時にAR、NAR、セミNAR生成をサポートすることができる。
質問生成実験(SQuAD 1.1)、要約(XSum)、対話生成実験(PersonaChat)は、BANGがNARとセミNARの性能を大幅に改善し、強力なAR事前訓練モデルで同等の性能を達成したことを示している。
セミNARの強いベースラインと比較して、BANGはSQuAD 1.1とXSumのスコアでそれぞれ14.01と5.24の絶対的な改善を達成した。
さらに、BANGはSQuAD、XSUM、PersonaChatのスコアを強力なNARベースラインと比較して10.73、6.39、および5.90の絶対的な改善を実現している。
私たちのコードはhttps://github.com/microsoft/BANG で公開されます。
関連論文リスト
- Distilling Autoregressive Models to Obtain High-Performance
Non-Autoregressive Solvers for Vehicle Routing Problems with Faster Inference
Speed [8.184624214651283]
本稿では,低推論遅延を有する高性能NARモデルを得るための汎用的非自己回帰的知識蒸留法(GNARKD)を提案する。
我々は、GNARKDを広く採用されている3つのARモデルに適用して、合成および実世界の両方のインスタンスに対して、NAR VRPソルバを得る。
論文 参考訳(メタデータ) (2023-12-19T07:13:32Z) - Directed Acyclic Transformer Pre-training for High-quality
Non-autoregressive Text Generation [98.37871690400766]
非AutoRegressive (NAR) テキスト生成モデルは、デコード速度が大幅に速く、機械翻訳の質が良いため、多くの注目を集めている。
既存のNARモデルは適切な事前訓練を欠いており、まだ訓練済みの自己回帰モデルよりはるかに遅れている。
我々は,NAR生成における予測整合性を促進するために,事前訓練された非巡回変圧器を提案する。
論文 参考訳(メタデータ) (2023-04-24T02:30:33Z) - A Self-Paced Mixed Distillation Method for Non-Autoregressive Generation [135.84684279852098]
非自己回帰(NAR)モデルは、様々な言語生成タスクにおけるオート回帰(AR)モデルの性能が著しく低い。
NARモデルの中で、BANGは英語未ラベルの原文コーパス上で最初の大規模事前学習モデルである。
そこで本研究では,BANGの生成品質をさらに向上させる,自己ペースト混合蒸留法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:54:53Z) - Diformer: Directional Transformer for Neural Machine Translation [13.867255817435705]
自己回帰(AR)モデルと非自己回帰(NAR)モデルは、パフォーマンスとレイテンシにおいてそれぞれ優位である。
本稿では,ARとNARを3世代に融合した方向変換器(Diformer)を提案する。
4つのWMTベンチマークの実験では、ダイフォーマーは現在の統一モデリング作業より優れており、ARとNARデコーディングの両方で1.5 BLEUポイント以上である。
論文 参考訳(メタデータ) (2021-12-22T02:35:29Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - A Study of Non-autoregressive Model for Sequence Generation [147.89525760170923]
非自己回帰(NAR)モデルは、シーケンスのすべてのトークンを並列に生成する。
本稿では,ARモデルとNARモデルのギャップを埋めるために,知識蒸留とソースターゲットアライメントを提案する。
論文 参考訳(メタデータ) (2020-04-22T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。