論文の概要: Improving Non-autoregressive Generation with Mixup Training
- arxiv url: http://arxiv.org/abs/2110.11115v1
- Date: Thu, 21 Oct 2021 13:04:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 16:10:47.295694
- Title: Improving Non-autoregressive Generation with Mixup Training
- Title(参考訳): 混合学習による非自己回帰生成の改善
- Authors: Ting Jiang, Shaohan Huang, Zihan Zhang, Deqing Wang, Fuzhen Zhuang,
Furu Wei, Haizhen Huang, Liangjie Zhang, Qi Zhang
- Abstract要約: 本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
- 参考スコア(独自算出の注目度): 51.61038444990301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While pre-trained language models have achieved great success on various
natural language understanding tasks, how to effectively leverage them into
non-autoregressive generation tasks remains a challenge. To solve this problem,
we present a non-autoregressive generation model based on pre-trained
transformer models. To bridge the gap between autoregressive and
non-autoregressive models, we propose a simple and effective iterative training
method called MIx Source and pseudo Target (MIST). Unlike other iterative
decoding methods, which sacrifice the inference speed to achieve better
performance based on multiple decoding iterations, MIST works in the training
stage and has no effect on inference time. Our experiments on three generation
benchmarks including question generation, summarization and paraphrase
generation, show that the proposed framework achieves the new state-of-the-art
results for fully non-autoregressive models. We also demonstrate that our
method can be used to a variety of pre-trained models. For instance, MIST based
on the small pre-trained model also obtains comparable performance with seq2seq
models.
- Abstract(参考訳): 事前学習された言語モデルは、様々な自然言語理解タスクで大きな成功を収めているが、それらを非自己回帰的な生成タスクに効果的に活用する方法は依然として課題である。
そこで本研究では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
自己回帰モデルと非自己回帰モデルとのギャップを埋めるために,MIx Source and pseudo Target (MIST) と呼ばれるシンプルで効果的な反復訓練手法を提案する。
推論速度を犠牲にして、複数の復号化イテレーションに基づいてより良いパフォーマンスを達成する他の反復復号法とは異なり、mistはトレーニングステージで動作し、推論時間に影響を与えない。
質問生成,要約,パラフレーズ生成を含む3世代ベンチマーク実験により,提案手法が完全非自己回帰モデルに対する新しい最先端結果を実現することを示す。
また,本手法を様々な事前学習モデルに適用できることを実証した。
例えば、訓練済みの小さなモデルに基づくMISTは、Seq2seqモデルと同等のパフォーマンスを得る。
関連論文リスト
- Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large
Language Models [11.57282859281814]
異なる知識レベルと属性戦略を考慮し、最良の方法で10の微調整されたモデルのうち8つを正確に追跡できることに気付きます。
論文 参考訳(メタデータ) (2023-06-15T17:42:48Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Enhancing Text Generation with Cooperative Training [23.971227375706327]
ほとんどの一般的な方法は、別々に生成的および差別的なモデルを訓練し、互いに変化に適応できなかった。
本稿では,識別器とジェネレータをクローズドループで協調的に学習するテキスト分野におけるテキスト自己一貫性学習フレームワークを提案する。
我々のフレームワークは、モード崩壊や非収束といったトレーニングの不安定さを軽減することができる。
論文 参考訳(メタデータ) (2023-03-16T04:21:19Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Bridging Pre-trained Models and Downstream Tasks for Source Code
Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。
我々は、下流データの多様性を豊かにする意味保存変換を利用する。
本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文 参考訳(メタデータ) (2021-12-04T07:21:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。