論文の概要: UT5: Pretraining Non autoregressive T5 with unrolled denoising
- arxiv url: http://arxiv.org/abs/2311.08552v1
- Date: Tue, 14 Nov 2023 21:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 18:02:30.954766
- Title: UT5: Pretraining Non autoregressive T5 with unrolled denoising
- Title(参考訳): ut5: unrolled denoisingによる非自己回帰性t5の事前訓練
- Authors: Mahmoud G. Salem, Jiayu Ye, Chu-Cheng Lin, Frederick Liu
- Abstract要約: 自動回帰型T5モデルの教師なし事前訓練について,非学習型聴覚障害者を用いて検討した。
我々は,SQuAD質問生成やXSumなどの下流生成タスクにおいて,そのSoTA結果を示した。
- 参考スコア(独自算出の注目度): 9.656399724144192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Transformer-based Large Language Models have made great
strides in natural language generation. However, to decode K tokens, an
autoregressive model needs K sequential forward passes, which may be a
performance bottleneck for large language models. Many non-autoregressive (NAR)
research are aiming to address this sequentiality bottleneck, albeit many have
focused on a dedicated architecture in supervised benchmarks. In this work, we
studied unsupervised pretraining for non auto-regressive T5 models via unrolled
denoising and shown its SoTA results in downstream generation tasks such as
SQuAD question generation and XSum.
- Abstract(参考訳): トランスフォーマーに基づく大規模言語モデルの最近の進歩は、自然言語生成に大きな進歩をもたらした。
しかし、Kトークンをデコードするためには、自動回帰モデルはKシーケンシャルフォワードパスを必要とする。
多くの非自己回帰的(nar)研究がこのシーケンシャルなボトルネックに対処することを目標としている。
本研究では,非自己回帰型T5モデルの教師なし事前学習を非ループデノナイズにより検討し,SQuAD質問生成やXSumなどの下流生成タスクにおけるSoTA結果を示した。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - Directed Acyclic Transformer Pre-training for High-quality
Non-autoregressive Text Generation [98.37871690400766]
非AutoRegressive (NAR) テキスト生成モデルは、デコード速度が大幅に速く、機械翻訳の質が良いため、多くの注目を集めている。
既存のNARモデルは適切な事前訓練を欠いており、まだ訓練済みの自己回帰モデルよりはるかに遅れている。
我々は,NAR生成における予測整合性を促進するために,事前訓練された非巡回変圧器を提案する。
論文 参考訳(メタデータ) (2023-04-24T02:30:33Z) - EdiT5: Semi-Autoregressive Text-Editing with T5 Warm-Start [21.4394742421462]
EdiT5は、半自動的なテキスト編集アプローチである。
非自己回帰的テキスト編集と自己回帰的復号の長所を兼ね備えている。
論文 参考訳(メタデータ) (2022-05-24T17:13:22Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - The Power of Prompt Tuning for Low-Resource Semantic Parsing [10.37371743879877]
意味解析のためのプロンプトチューニングについて検討する。
大規模なT5モデルの場合(つまり、チューニングの速さが低いデータ構造において微調整を著しく上回っている)。
この最後の結果は、大きなT5モデルが事前学習された分布から遠く離れた配列を生成するように変調できることを示唆している。
論文 参考訳(メタデータ) (2021-10-16T09:33:09Z) - EncT5: Fine-tuning T5 Encoder for Non-autoregressive Tasks [9.141586109808895]
我々は、T5のような微調整済みのエンコーダデコーダモデルについて検討する。
実験の結果, T5 のパラメータの半分未満の textbfEncT5 は GLUE ベンチマークの T5 モデルと同様の性能を示した。
論文 参考訳(メタデータ) (2021-10-16T00:50:08Z) - Non-Autoregressive Translation by Learning Target Categorical Codes [59.840510037250944]
本論文では,非回帰型復号法に潜在変数として暗黙的に分類符号を学習するCNATを提案する。
実験の結果,本モデルは機械翻訳タスクにおいて同等あるいは優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-03-21T14:12:34Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Aligned Cross Entropy for Non-Autoregressive Machine Translation [120.15069387374717]
非自己回帰モデルの学習における代替的損失関数としてアライメントクロスエントロピー(AXE)を提案する。
AXEに基づく条件付きマスキング言語モデル(CMLM)のトレーニングは、主要なWMTベンチマークの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2020-04-03T16:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。