論文の概要: Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence
Learning
- arxiv url: http://arxiv.org/abs/2012.14768v2
- Date: Thu, 18 Mar 2021 11:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 01:43:21.554180
- Title: Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence
Learning
- Title(参考訳): 逐次学習におけるエンコーダ層融合の理解と改善
- Authors: Xuebo Liu, Longyue Wang, Derek F. Wong, Liang Ding, Lidia S. Chao,
Zhaopeng Tu
- Abstract要約: encoderfusionはsequence-to-sequence(seq2seq)モデルのためにすべてのエンコーダ層を(最上層ではなく)融合するテクニックである。
ソフトマックス層にエンコーダ埋め込み層のみを融合させ、単純な融合法であるSurfaceFusionを提案する。
SurfaceFusionは、機械翻訳、テキスト要約、文法的誤り訂正など、いくつかのNLPベンチマークでFusionを上回っている。
- 参考スコア(独自算出の注目度): 46.470455217795134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Encoder layer fusion (EncoderFusion) is a technique to fuse all the encoder
layers (instead of the uppermost layer) for sequence-to-sequence (Seq2Seq)
models, which has proven effective on various NLP tasks. However, it is still
not entirely clear why and when EncoderFusion should work. In this paper, our
main contribution is to take a step further in understanding EncoderFusion.
Many of previous studies believe that the success of EncoderFusion comes from
exploiting surface and syntactic information embedded in lower encoder layers.
Unlike them, we find that the encoder embedding layer is more important than
other intermediate encoder layers. In addition, the uppermost decoder layer
consistently pays more attention to the encoder embedding layer across NLP
tasks. Based on this observation, we propose a simple fusion method,
SurfaceFusion, by fusing only the encoder embedding layer for the softmax
layer. Experimental results show that SurfaceFusion outperforms EncoderFusion
on several NLP benchmarks, including machine translation, text summarization,
and grammatical error correction. It obtains the state-of-the-art performance
on WMT16 Romanian-English and WMT14 English-French translation tasks. Extensive
analyses reveal that SurfaceFusion learns more expressive bilingual word
embeddings by building a closer relationship between relevant source and target
embedding. Source code is freely available at
https://github.com/SunbowLiu/SurfaceFusion.
- Abstract(参考訳): エンコーダ層融合(encoderfusion)はシーケンシャル・ツー・シーケンス(seq2seq)モデルのために(最上層ではなく)全てのエンコーダ層を融合させる技術であり、様々なnlpタスクに有効であることが証明されている。
しかし、EncoderFusionが機能すべき理由と時期は、まだ明らかになっていない。
本稿では,EncoderFusionの理解を深めることが主な貢献である。
以前の研究の多くは、エンコーダフュージョンの成功は、低いエンコーダ層に埋め込まれた表面情報と構文情報を利用することから来ていると信じている。
それらとは異なり、エンコーダの埋め込み層は他の中間エンコーダ層よりも重要である。
さらに、最上位のデコーダ層は、NLPタスクにまたがるエンコーダ埋め込み層に常に注意を払う。
そこで本研究では,ソフトマックス層へのエンコーダ埋め込み層のみを融合させて,簡単な融合法であるSurfaceFusionを提案する。
実験の結果,SurfaceFusion は機械翻訳,テキスト要約,文法的誤り訂正など,いくつかの NLP ベンチマークにおいて EncoderFusion よりも優れていた。
WMT16ルーマニア語-英語とWMT14英語-フランス語翻訳タスクの最先端のパフォーマンスを得る。
包括的分析により、SurfaceFusionは、関連するソースとターゲットの埋め込みとの密接な関係を構築することによって、より表現力のあるバイリンガル単語の埋め込みを学習することが明らかになった。
ソースコードはhttps://github.com/SunbowLiu/SurfaceFusion.comから無料で入手できる。
関連論文リスト
- Learning to Compose Representations of Different Encoder Layers towards
Improving Compositional Generalization [29.32436551704417]
textscCompoSition (textbfCompose textbfSyntactic and Semanttextbfic Representatextbftions)を提案する。
textscCompoSitionは、2つの総合的で現実的なベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-20T11:16:59Z) - CTRAN: CNN-Transformer-based Network for Natural Language Understanding [0.456877715768796]
インテント検出とスロット充填のための新しいエンコーダデコーダCNN-TransformerアーキテクチャであるCTRANを提案する。
エンコーダでは、BERTといくつかの畳み込み層を使用し、ウィンドウ特徴系列を用いて出力を並べ替える。
スロット充足デコーダでは,出力タグと入力トークンを整列させた整列トランスフォーマーデコーダを導入する。
論文 参考訳(メタデータ) (2023-03-19T08:57:39Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Layer-Wise Multi-View Learning for Neural Machine Translation [45.679212203943194]
従来のニューラルネットワーク翻訳は、最上位のエンコーダ層のコンテキスト表現に限られている。
この問題を解決するために,レイヤワイドな多視点学習を提案する。
提案手法は,複数の強いベースラインに対して安定した改善をもたらす。
論文 参考訳(メタデータ) (2020-11-03T05:06:37Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - Probing Word Translations in the Transformer and Trading Decoder for
Encoder Layers [69.40942736249397]
トランスフォーマー層における単語の翻訳方法はまだ研究されていない。
翻訳はすでにエンコーダ層や入力埋め込みでも徐々に行われています。
実験の結果,翻訳品質が低い2.3までの速度向上が可能であり,さらに18-4のディープエンコーダ構成では翻訳品質が1.42BLEU(En-De)の速度アップで+1.42BLEU(En-De)向上することがわかった。
論文 参考訳(メタデータ) (2020-03-21T06:12:14Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。