論文の概要: DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders
- arxiv url: http://arxiv.org/abs/2106.13736v1
- Date: Fri, 25 Jun 2021 16:12:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 13:08:35.068001
- Title: DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders
- Title(参考訳): DeltaLM: 事前訓練された多言語エンコーダの拡張による言語生成と翻訳のためのエンコーダデコーダ事前学習
- Authors: Shuming Ma, Li Dong, Shaohan Huang, Dongdong Zhang, Alexandre Muzio,
Saksham Singhal, Hany Hassan Awadalla, Xia Song, Furu Wei
- Abstract要約: 本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
- 参考スコア(独自算出の注目度): 92.90543340071007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While pretrained encoders have achieved success in various natural language
understanding (NLU) tasks, there is a gap between these pretrained encoders and
natural language generation (NLG). NLG tasks are often based on the
encoder-decoder framework, where the pretrained encoders can only benefit part
of it. To reduce this gap, we introduce DeltaLM, a pretrained multilingual
encoder-decoder model that regards the decoder as the task layer of
off-the-shelf pretrained encoders. Specifically, we augment the pretrained
multilingual encoder with a decoder and pre-train it in a self-supervised way.
To take advantage of both the large-scale monolingual data and bilingual data,
we adopt the span corruption and translation span corruption as the
pre-training tasks. Experiments show that DeltaLM outperforms various strong
baselines on both natural language generation and translation tasks, including
machine translation, abstractive text summarization, data-to-text, and question
generation.
- Abstract(参考訳): プリトレーニングエンコーダは、様々な自然言語理解(nlu)タスクで成功を収めているが、これらのプリトレーニングエンコーダと自然言語生成(nlg)の間にはギャップがある。
nlgタスクはしばしばエンコーダ/デコーダフレームワークに基づいており、プリトレーニングされたエンコーダはその一部しか役に立たない。
このギャップを減らすために,本モデルでは,デコーダを既訓練の既訓練エンコーダのタスク層とみなす,事前訓練された多言語エンコーダ-デコーダモデルであるDeltaLMを導入する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
大規模単言語データとバイリンガルデータの両方を活用するために,スパン破壊と翻訳スパン破壊を事前学習タスクとして採用する。
実験により、DeltaLMは、機械翻訳、抽象テキスト要約、データ・トゥ・テキスト、質問生成など、自然言語生成と翻訳タスクの両方において、様々な強力なベースラインを上回ります。
関連論文リスト
- Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Is Encoder-Decoder Redundant for Neural Machine Translation? [44.37101354412253]
encoder-decoderアーキテクチャは現在でも、最先端モデルのデファクトニューラルネットワークアーキテクチャである。
本研究は,バイリンガル翻訳,ターゲット単言語データを用いた翻訳,多言語翻訳の実験である。
この代替アプローチは、ベースラインエンコーダ-デコーダ変換器と同等に動作し、エンコーダ-デコーダアーキテクチャがニューラルマシン翻訳に冗長である可能性を示唆している。
論文 参考訳(メタデータ) (2022-10-21T08:33:55Z) - Multilingual Neural Machine Translation with Deep Encoder and Multiple
Shallow Decoders [77.2101943305862]
本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。
2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
論文 参考訳(メタデータ) (2022-06-05T01:15:04Z) - CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language
Understanding and Generation [38.02741711554989]
中国語事前訓練アンバランス変換器(CPT)は、自然言語理解(NLU)と自然言語生成(NLG)の両方のために設計されている。
CPTは、共有エンコーダ、理解デコーダ、生成デコーダの3つの部分から構成される。
部分的に共有されたアーキテクチャとマルチタスク事前学習により、CPTは2つのデコーダでNLUまたはNLGタスクの具体的な知識を学ぶことができる。
論文 参考訳(メタデータ) (2021-09-13T06:25:45Z) - Guiding Teacher Forcing with Seer Forcing for Neural Machine Translation [11.570746514243117]
トレーニング中に、別のデコーダである seer decoder を encoder-decoder フレームワークに導入する。
我々は,従来のデコーダに対して,知識蒸留によりシーラーデコーダの挙動をシミュレートするよう強制する。
実験により,本手法は競争ベースラインを著しく上回り,大規模データセットの大幅な改善を実現することができることが示された。
論文 参考訳(メタデータ) (2021-06-12T11:38:40Z) - Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network [99.03895740754402]
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-27T17:36:57Z) - On the Sub-Layer Functionalities of Transformer Decoder [74.83087937309266]
トランスフォーマーをベースとしたデコーダは,ソースおよびターゲット言語からの情報をいかに活用するかを検討する。
これらの知見に基づき,各トランスフォーマーデコーダ層内の残フィードフォワードモジュールは,性能の低下を最小限に抑えられることを示した。
論文 参考訳(メタデータ) (2020-10-06T11:50:54Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。