論文の概要: Non-Autoregressive Text Generation with Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2102.08220v1
- Date: Tue, 16 Feb 2021 15:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 22:43:18.962695
- Title: Non-Autoregressive Text Generation with Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルを用いた非自己回帰テキスト生成
- Authors: Yixuan Su, Deng Cai, Yan Wang, David Vandyke, Simon Baker, Piji Li,
Nigel Collier
- Abstract要約: BERTはNAGモデルのバックボーンとして利用でき、性能を大幅に向上できることを示す。
バニラNAGモデルの2つの共通問題を緩和するメカニズムを考案する。
本稿では,出力長を事前に推定できる新しいデコード戦略である ratio-first を提案する。
- 参考スコア(独自算出の注目度): 40.50508206201288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Non-autoregressive generation (NAG) has recently attracted great attention
due to its fast inference speed. However, the generation quality of existing
NAG models still lags behind their autoregressive counterparts. In this work,
we show that BERT can be employed as the backbone of a NAG model to greatly
improve performance. Additionally, we devise mechanisms to alleviate the two
common problems of vanilla NAG models: the inflexibility of prefixed output
length and the conditional independence of individual token predictions.
Lastly, to further increase the speed advantage of the proposed model, we
propose a new decoding strategy, ratio-first, for applications where the output
lengths can be approximately estimated beforehand. For a comprehensive
evaluation, we test the proposed model on three text generation tasks,
including text summarization, sentence compression and machine translation.
Experimental results show that our model significantly outperforms existing
non-autoregressive baselines and achieves competitive performance with many
strong autoregressive models. In addition, we also conduct extensive analysis
experiments to reveal the effect of each proposed component.
- Abstract(参考訳): 非自己回帰生成(Non-autoregressive generation、NAG)は、推論速度が速いために最近注目されている。
しかしながら、既存のNAGモデルの生成品質は、自己回帰モデルよりも遅れている。
本研究では, BERTをNAGモデルのバックボーンとして使用することにより, 性能を大幅に向上できることを示す。
さらに,バニラnagモデルの2つの共通問題を緩和するメカニズムを考案する。プレフィックス出力長の非フレキシブル化と個々のトークン予測の条件付き独立性である。
最後に,提案モデルの速度優位性をさらに高めるために,出力長を予め推定可能なアプリケーションに対して,新しい復号化戦略である比優先方式を提案する。
包括的評価のために,提案モデルをテキスト要約,文圧縮,機械翻訳の3つのテキスト生成タスクでテストした。
実験結果から,本モデルが既存の非自己回帰ベースラインを著しく上回り,多くの強力な自己回帰モデルとの競合性能が得られた。
また,提案する各成分の効果を明らかにするために,広範な解析実験を行った。
関連論文リスト
- GASE: Generatively Augmented Sentence Encoding [0.0]
本稿では,データ拡張のための生成テキストモデルを推論時に適用することにより,文の埋め込みを強化する手法を提案する。
Generatively Augmented Sentenceは、パラフレーズ、要約、あるいはキーワードの抽出によって生成される入力テキストの多様な合成変種を使用する。
生成的拡張により,ベースライン性能の低い埋め込みモデルの性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-11-07T17:53:47Z) - DynaMo: Accelerating Language Model Inference with Dynamic Multi-Token Sampling [51.055580277828]
ネット推論時間を短縮するマルチトークン予測言語モデルであるDynaMoを提案する。
我々のモデルは、予測された関節確率分布に対する信頼度に基づいて複数のトークンを予測する。
また、テキスト生成品質を向上させるために、推定結合確率を高める新しい方法を提案する。
論文 参考訳(メタデータ) (2024-05-01T22:17:57Z) - Utilizing Multiple Inputs Autoregressive Models for Bearing Remaining
Useful Life Prediction [3.448070371030467]
軸受のRUL予測において,この課題に対処する新しい多入力自己回帰モデルを提案する。
自己回帰反復により、モデルはグローバルな受容場を獲得し、一般化の限界を効果的に克服する。
PMH2012データセットの実証評価では, 同様の自己回帰アプローチを用いたバックボーンネットワークと比較して, ルート平均角誤差(RMSE)とスコアが有意に低いことが示されている。
論文 参考訳(メタデータ) (2023-11-26T09:50:32Z) - Directed Acyclic Transformer Pre-training for High-quality
Non-autoregressive Text Generation [98.37871690400766]
非AutoRegressive (NAR) テキスト生成モデルは、デコード速度が大幅に速く、機械翻訳の質が良いため、多くの注目を集めている。
既存のNARモデルは適切な事前訓練を欠いており、まだ訓練済みの自己回帰モデルよりはるかに遅れている。
我々は,NAR生成における予測整合性を促進するために,事前訓練された非巡回変圧器を提案する。
論文 参考訳(メタデータ) (2023-04-24T02:30:33Z) - Leveraging Pre-trained Models for Failure Analysis Triplets Generation [0.0]
我々は、故障解析トリプレット(FAT)を生成する下流タスクにおいて、トランスフォーマーモデルのような事前訓練された因果言語モデルの注意機構を活用する。
生成事前学習型変換器2(GPT2)は、故障解析三重項生成(FATG)タスクにおいて、他の変換器モデルよりも優れていた。
特に, GPT2(1.5Bパラメータで学習)は, ROUGEにおいて, トレーニング済みBERT, BART, GPT3よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-31T17:21:15Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - End-to-end Neural Coreference Resolution Revisited: A Simple yet
Effective Baseline [20.431647446999996]
本稿では、コア参照解決のための単純で効果的なベースラインを提案する。
我々のモデルは、オリジナルのニューラルコア参照解決モデルの簡易版である。
我々の研究は、既存のモデルや新しく提案されたモデルの複雑さを慎重に正当化する必要性を示す証拠を提供する。
論文 参考訳(メタデータ) (2021-07-04T18:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。