論文の概要: A Self-Paced Mixed Distillation Method for Non-Autoregressive Generation
- arxiv url: http://arxiv.org/abs/2205.11162v1
- Date: Mon, 23 May 2022 09:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 17:05:15.961842
- Title: A Self-Paced Mixed Distillation Method for Non-Autoregressive Generation
- Title(参考訳): 非自己回帰生成のための自己ペースト混合蒸留法
- Authors: Weizhen Qi, Yeyun Gong, Yelong Shen, Jian Jiao, Yu Yan, Houqiang Li,
Ruofei Zhang, Weizhu Chen, Nan Duan
- Abstract要約: 非自己回帰(NAR)モデルは、様々な言語生成タスクにおけるオート回帰(AR)モデルの性能が著しく低い。
NARモデルの中で、BANGは英語未ラベルの原文コーパス上で最初の大規模事前学習モデルである。
そこで本研究では,BANGの生成品質をさらに向上させる,自己ペースト混合蒸留法を提案する。
- 参考スコア(独自算出の注目度): 135.84684279852098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-Autoregressive generation is a sequence generation paradigm, which
removes the dependency between target tokens. It could efficiently reduce the
text generation latency with parallel decoding in place of token-by-token
sequential decoding. However, due to the known multi-modality problem,
Non-Autoregressive (NAR) models significantly under-perform Auto-regressive
(AR) models on various language generation tasks. Among the NAR models, BANG is
the first large-scale pre-training model on English un-labeled raw text corpus.
It considers different generation paradigms as its pre-training tasks including
Auto-regressive (AR), Non-Autoregressive (NAR), and semi-Non-Autoregressive
(semi-NAR) information flow with multi-stream strategy. It achieves
state-of-the-art performance without any distillation techniques. However, AR
distillation has been shown to be a very effective solution for improving NAR
performance. In this paper, we propose a novel self-paced mixed distillation
method to further improve the generation quality of BANG. Firstly, we propose
the mixed distillation strategy based on the AR stream knowledge. Secondly, we
encourage the model to focus on the samples with the same modality by
self-paced learning. The proposed self-paced mixed distillation algorithm
improves the generation quality and has no influence on the inference latency.
We carry out extensive experiments on summarization and question generation
tasks to validate the effectiveness. To further illustrate the commercial value
of our approach, we conduct experiments on three generation tasks in real-world
advertisements applications. Experimental results on commercial data show the
effectiveness of the proposed model. Compared with BANG, it achieves
significant BLEU score improvement. On the other hand, compared with
auto-regressive generation method, it achieves more than 7x speedup.
- Abstract(参考訳): 非自己回帰生成は、ターゲットトークン間の依存関係を取り除くシーケンス生成パラダイムである。
トークンバイトークンシーケンシャル復号の代わりに並列復号化することで、テキスト生成のレイテンシを効率的に削減できる。
しかし、既知の多モード性の問題により、非自己回帰モデル(NAR)は、様々な言語生成タスクにおけるオート回帰モデル(AR)モデルの性能が著しく低い。
NARモデルの中で、BANGは英語未ラベルの原文コーパス上で最初の大規模事前学習モデルである。
自動回帰(AR)、非自己回帰(NAR)、半非自己回帰(Semi-NAR)情報フローなど、さまざまな世代パラダイムを、マルチストリーム戦略による事前学習タスクとみなしている。
蒸留技術なしで最先端の性能を発揮する。
しかし,AR蒸留はNARの性能向上に極めて有効であることが示されている。
本稿では,BANGの生成品質をさらに向上させる,新しい自己加熱混合蒸留法を提案する。
まず,ARストリームの知識に基づく混合蒸留戦略を提案する。
第2に、自己評価学習により、同じモダリティのサンプルに焦点を合わせることを奨励する。
提案する自己ペース混合蒸留アルゴリズムは, 生成品質を改善し, 推定遅延に影響を与えない。
提案手法の有効性を検証するため,要約および質問生成タスクについて広範な実験を行った。
提案手法の商業的価値をさらに説明するために,実世界の広告アプリケーションにおける3世代タスクの実験を行った。
商用データを用いた実験の結果,提案モデルの有効性が示された。
BANGと比較すると、BLEUスコアの大幅な改善を実現している。
一方,自己回帰生成法と比較して7倍以上の高速化を達成している。
関連論文リスト
- Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Distilling Autoregressive Models to Obtain High-Performance
Non-Autoregressive Solvers for Vehicle Routing Problems with Faster Inference
Speed [8.184624214651283]
本稿では,低推論遅延を有する高性能NARモデルを得るための汎用的非自己回帰的知識蒸留法(GNARKD)を提案する。
我々は、GNARKDを広く採用されている3つのARモデルに適用して、合成および実世界の両方のインスタンスに対して、NAR VRPソルバを得る。
論文 参考訳(メタデータ) (2023-12-19T07:13:32Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and
Effective Text Generation [97.64625999380425]
事前学習言語モデル(PLM)のアプローチによるテキスト生成タスクについて検討する。
早期出口技術を活用することで、ELMERは予測信頼度に応じて異なるレイヤでのトークン生成を可能にする。
3つのテキスト生成タスクの実験では、EMMERはNARモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-24T14:46:47Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Autoregressive Knowledge Distillation through Imitation Learning [70.12862707908769]
我々は,知識蒸留における模倣学習の観点から駆動される自己回帰モデルに対する圧縮手法を開発した。
本手法は,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムより一貫して優れている。
また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4~4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。
論文 参考訳(メタデータ) (2020-09-15T17:43:02Z) - Incorporating Reinforced Adversarial Learning in Autoregressive Image
Generation [39.55651747758391]
本稿では,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。
RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。
提案手法は,64$times$64画像解像度でCelebaの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-07-20T08:10:07Z) - An EM Approach to Non-autoregressive Conditional Sequence Generation [49.11858479436565]
自己回帰(AR)モデルは条件付きシーケンス生成において支配的なアプローチである。
非自己回帰(NAR)モデルは、最近、すべての出力トークンを並列に生成することでレイテンシを低減するために提案されている。
本稿では,ARモデルとNARモデルの両方を統合期待最大化フレームワークで協調的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T20:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。