論文の概要: E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation
- arxiv url: http://arxiv.org/abs/2205.14912v1
- Date: Mon, 30 May 2022 08:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:18:00.650671
- Title: E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation
- Title(参考訳): E2S2: 言語理解と生成のためのエンコード強化シーケンス・ツー・シーケンス事前学習
- Authors: Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du and Dacheng Tao
- Abstract要約: 本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
GLUEベンチマークの平均利得1.0%、CoNLL2014データセットの1.75% F_0.5スコア改善など、E2S2は一貫してパフォーマンスを向上できることを示す。
- 参考スコア(独自算出の注目度): 103.57103957631067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence-to-sequence (seq2seq) learning has become a popular trend for
pretraining language models, due to its succinct and universal framework.
However, the prior seq2seq pretraining models generally focus on reconstructive
objectives on the decoder side and neglect the effect of encoder-side
supervisions, which may lead to sub-optimal performance. To this end, we
propose an encoding-enhanced seq2seq pretraining strategy, namely E2S2, which
improves the seq2seq models via integrating more efficient self-supervised
information into the encoders. Specifically, E2S2 contains two self-supervised
objectives upon the encoder, which are from two perspectives: 1) denoising the
corrupted sentence (denoising objective); 2) learning robust sentence
representations (contrastive objective). With these two objectives, the encoder
can effectively distinguish the noise tokens and capture more syntactic and
semantic knowledge, thus strengthening the ability of seq2seq model to
comprehend the input sentence and conditionally generate the target. We conduct
extensive experiments spanning language understanding and generation tasks upon
the state-of-the-art seq2seq pretrained language model BART. We show that E2S2
can consistently boost the performance, including 1.0% averaged gain on GLUE
benchmark and 1.75% F_0.5 score improvement on CoNLL2014 dataset, validating
the effectiveness and robustness of our E2S2.
- Abstract(参考訳): sequence-to-sequence(seq2seq)学習は、簡潔で普遍的なフレームワークのため、言語モデルの事前学習において一般的なトレンドとなっている。
しかし、以前のseq2seqプリトレーニングモデルでは、一般的にデコーダ側の再構成目標に注目し、エンコーダ側の監督の影響を無視する。
そこで本研究では,より効率的な自己教師付き情報をエンコーダに統合することにより,seq2seqモデルを改善するe2s2という,符号化エンハンスされたseq2seqプリトレーニング戦略を提案する。
具体的には、E2S2はエンコーダ上の2つの自己監督対象を含んでいる。
1) 腐敗した文(否定目的)を通知する。
2)頑健な文表現(意味目的)の学習。
これらの2つの目的により、エンコーダは、ノイズトークンを効果的に識別し、より構文的および意味的な知識を捕捉し、入力文を理解し、ターゲットを条件的に生成するセック2セックモデルの能力を強化する。
我々は、最先端のセク2セック事前学習言語モデルBART上で、言語理解と生成タスクにまたがる広範な実験を行う。
GLUEベンチマークの1.0%の平均ゲイン,CoNLL2014データセットの1.75% F_0.5スコアの改善,E2S2の有効性とロバスト性を検証した。
関連論文リスト
- Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Improving End-to-End Models for Set Prediction in Spoken Language
Understanding [26.781489293420055]
本稿では、音声の順序を推測する暗黙の注意に基づくアライメント手法とともに、新しいデータ拡張手法を提案する。
F1スコアは、RNN-Tでは11%以上、注意に基づくエンコーダデコーダSLUモデルでは2%以上増加し、これまで報告された結果を上回った。
論文 参考訳(メタデータ) (2022-01-28T13:23:17Z) - Regularized Training of Nearest Neighbor Language Models [10.994336081018043]
我々は、トレーニングデータ(メモリバンク)を通じて、トレーニング済みの言語モデルと徹底的な$k$NN検索を用いて、最先端の結果を得る、$k$NN-LM citepkhandelwal20 Generalizationを構築した。
その結果,L2正則化は低周波ワードの性能を劣化させることなく,高周波ワードの性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T23:20:24Z) - Enhanced Seq2Seq Autoencoder via Contrastive Learning for Abstractive
Text Summarization [15.367455931848252]
抽象テキスト要約のためのコントラスト学習によるシーケンス・ツー・シーケンス(seq2seq)オートエンコーダを提案する。
本モデルは,多層双方向エンコーダと自動回帰デコーダを備えた標準トランスフォーマーアーキテクチャを採用する。
2つのデータセットで実験を行い、我々のモデルが既存のベンチマークより優れていることを示す。
論文 参考訳(メタデータ) (2021-08-26T18:45:13Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Orthros: Non-autoregressive End-to-end Speech Translation with
Dual-decoder [64.55176104620848]
NARと自己回帰(AR)デコーダの両方を共有音声エンコーダで共同で訓練する新しいNAR E2E-STフレームワークOrthrosを提案する。
後者は、前者から生成される様々な長の候補間のより良い翻訳を選択するために使用され、これは、無視できるオーバーヘッドを持つ大きな長のビームの有効性を劇的に向上させる。
4つのベンチマーク実験により、競合翻訳品質を維持しつつ、推論速度を向上させる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-10-25T06:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。