論文の概要: Recipes for Sequential Pre-training of Multilingual Encoder and Seq2Seq
Models
- arxiv url: http://arxiv.org/abs/2306.08756v1
- Date: Wed, 14 Jun 2023 21:41:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 17:12:09.919332
- Title: Recipes for Sequential Pre-training of Multilingual Encoder and Seq2Seq
Models
- Title(参考訳): 多言語エンコーダとSeq2Seqモデルの逐次事前学習
- Authors: Saleh Soltan, Andy Rosenbaum, Tobias Falke, Qin Lu, Anna Rumshisky,
Wael Hamza
- Abstract要約: 1つのモデルを他のモデルから初期化することで、トレーニング効率を向上させるためのレシピを探索する。
エンコーダを用いてSeq2seqのトレーニングを温めることで、Scratch Seq2seqモデルのタスク性能にマッチできることを示す。
- 参考スコア(独自算出の注目度): 16.49601740473416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained encoder-only and sequence-to-sequence (seq2seq) models each have
advantages, however training both model types from scratch is computationally
expensive. We explore recipes to improve pre-training efficiency by
initializing one model from the other. (1) Extracting the encoder from a
seq2seq model, we show it under-performs a Masked Language Modeling (MLM)
encoder, particularly on sequence labeling tasks. Variations of masking during
seq2seq training, reducing the decoder size, and continuing with a small amount
of MLM training do not close the gap. (2) Conversely, using an encoder to
warm-start seq2seq training, we show that by unfreezing the encoder partway
through training, we can match task performance of a from-scratch seq2seq
model. Overall, this two-stage approach is an efficient recipe to obtain both a
multilingual encoder and a seq2seq model, matching the performance of training
each model from scratch while reducing the total compute cost by 27%.
- Abstract(参考訳): プリトレーニングエンコーダのみおよびシーケンシャル・ツー・シークエンス(seq2seq)モデルにはそれぞれ利点があるが、両方のモデルタイプをスクラッチからトレーニングするのは計算コストがかかる。
1つのモデルを他のモデルから初期化することで、事前学習効率を改善するためのレシピを検討する。
1)Seq2seqモデルからエンコーダを抽出し,特にシーケンスラベリングタスクにおいて,マスケッド言語モデリング(MLM)エンコーダの下位性能を示す。
seq2seqトレーニング中のマスキングの変化、デコーダサイズの削減、少量のMLMトレーニングの継続はギャップを埋めない。
2)逆に、エンコーダをウォームスタートseq2seqトレーニングに使用することにより、トレーニングを通じてエンコーダパートウェイをフリーズすることで、スクラッチseq2seqモデルのタスク性能と一致させることができることを示す。
全体として、この2段階のアプローチは、多言語エンコーダとseq2seqモデルの両方を得るための効率的なレシピであり、各モデルをスクラッチからトレーニングするパフォーマンスを一致させ、計算コストを27%削減する。
関連論文リスト
- Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - Exploiting the Potential of Seq2Seq Models as Robust Few-Shot Learners [8.43854206194162]
この結果から,Seq2seqモデルは多種多様なアプリケーションに対して非常に効果的であることを示す。
本稿では,セq2seqモデルにおける文脈内学習能力をより効果的に活用する2つの手法を提案する。
論文 参考訳(メタデータ) (2023-07-27T13:37:06Z) - A Framework for Bidirectional Decoding: Case Study in Morphological
Inflection [4.602447284133507]
外部からシーケンスを復号するフレームワークを提案する。
各ステップで、モデルは左、右にトークンを生成するか、左と右のシーケンスを結合するかを選択します。
我々のモデルは2022年と2023年の共有タスクに最先端のSOTA(State-of-the-art)を設定し、それぞれ平均精度4.7ポイントと2.7ポイント以上で次の最高のシステムを上回った。
論文 参考訳(メタデータ) (2023-05-21T22:08:31Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - Hierarchical Phrase-based Sequence-to-Sequence Learning [94.10257313923478]
本稿では、学習中の帰納バイアスの源として階層的フレーズを取り入れ、推論中の明示的な制約として、標準的なシーケンス・ツー・シーケンス(seq2seq)モデルの柔軟性を維持するニューラルトランスデューサについて述べる。
本手法では,木が原文と対象句を階層的に整列するブラケット文法に基づく識別的導出法と,整列した句を1対1で翻訳するニューラルネットワークセク2セックモデルという2つのモデルを訓練する。
論文 参考訳(メタデータ) (2022-11-15T05:22:40Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Efficient Decoding of Surface Code Syndromes for Error Correction in
Quantum Computing [0.09236074230806578]
本稿では,2レベル(低レベル,高レベル)のMLベースの復号法を提案し,第1レベルが物理量子ビット上の誤りを訂正し,第2レベルが既存の論理的誤りを訂正する。
その結果,提案手法は擬似閾値としきい値のそれぞれ$sim10倍,$sim2倍の値が得られることがわかった。
より高度な訓練/テスト時間を持つMLモデルの使用は、デコーダの性能に大きな改善をもたらすものではないことを示す。
論文 参考訳(メタデータ) (2021-10-21T04:54:44Z) - Tiny Neural Models for Seq2Seq [0.0]
pQRNN-MAttと呼ばれるプロジェクションベースエンコーダデコーダモデルを提案する。
その結果得られた量子化モデルのサイズは3.5MB未満であり、デバイス上のレイテンシクリティカルなアプリケーションに適している。
本稿では,多言語意味解析データセットであるMTOPにおいて,平均モデル性能が,85倍の精度で事前学習した埋め込みを用いたLSTMベースのSeq2seqモデルを上回ることを示す。
論文 参考訳(メタデータ) (2021-08-07T00:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。