論文の概要: Incorporating BERT into Parallel Sequence Decoding with Adapters
- arxiv url: http://arxiv.org/abs/2010.06138v1
- Date: Tue, 13 Oct 2020 03:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 23:29:48.050355
- Title: Incorporating BERT into Parallel Sequence Decoding with Adapters
- Title(参考訳): アダプタで並列シーケンスデコードにbertを組み込む
- Authors: Junliang Guo, Zhirui Zhang, Linli Xu, Hao-Ran Wei, Boxing Chen, Enhong
Chen
- Abstract要約: 本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
- 参考スコア(独自算出の注目度): 82.65608966202396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large scale pre-trained language models such as BERT have achieved
great success on various natural language understanding tasks, how to
efficiently and effectively incorporate them into sequence-to-sequence models
and the corresponding text generation tasks remains a non-trivial problem. In
this paper, we propose to address this problem by taking two different BERT
models as the encoder and decoder respectively, and fine-tuning them by
introducing simple and lightweight adapter modules, which are inserted between
BERT layers and tuned on the task-specific dataset. In this way, we obtain a
flexible and efficient model which is able to jointly leverage the information
contained in the source-side and target-side BERT models, while bypassing the
catastrophic forgetting problem. Each component in the framework can be
considered as a plug-in unit, making the framework flexible and task agnostic.
Our framework is based on a parallel sequence decoding algorithm named
Mask-Predict considering the bi-directional and conditional independent nature
of BERT, and can be adapted to traditional autoregressive decoding easily. We
conduct extensive experiments on neural machine translation tasks where the
proposed method consistently outperforms autoregressive baselines while
reducing the inference latency by half, and achieves $36.49$/$33.57$ BLEU
scores on IWSLT14 German-English/WMT14 German-English translation. When adapted
to autoregressive decoding, the proposed method achieves $30.60$/$43.56$ BLEU
scores on WMT14 English-German/English-French translation, on par with the
state-of-the-art baseline models.
- Abstract(参考訳): BERTのような大規模事前学習言語モデルは、様々な自然言語理解タスクにおいて大きな成功を収めてきたが、それらをシーケンス・ツー・シーケンスモデルに効率的に効果的に組み込む方法や、それに対応するテキスト生成タスクは、相変わらず簡単な問題である。
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り込んで,BERT層間に挿入してタスク固有のデータセットに調整する,シンプルで軽量なアダプタモジュールを導入することで,この問題に対処することを提案する。
このようにして,ソース・サイドとターゲット・サイドのbertモデルに含まれる情報を協調的に活用できる柔軟性と効率のよいモデルを得る。
フレームワークの各コンポーネントはプラグインユニットと見なすことができ、フレームワークは柔軟でタスクに依存しない。
本フレームワークは,BERTの双方向および条件独立性を考慮した並列シーケンス復号アルゴリズムMask-Predictに基づいており,従来の自己回帰復号に容易に適応できる。
提案手法は、推論遅延を半分に抑えながら自己回帰ベースラインを一貫して上回り、IWSLT14ドイツ語-英語/WMT14ドイツ語-英語翻訳のBLEUスコアを36.49ドル/33.57ドルで達成する。
自己回帰復号に適応すると、提案手法はWMT14の英語/ドイツ語/英語-フランス語翻訳で30.60$/43.56$BLEUスコアを得る。
関連論文リスト
- Breaking the Token Barrier: Chunking and Convolution for Efficient Long
Text Classification with BERT [0.0]
変換器ベースのモデル、特にBERTは様々なNLPタスクの研究を推進している。
BERTモデルは512トークンの最大トークン制限に制限されているため、長い入力で実際に適用するのは簡単ではない。
本稿では,任意の事前学習したモデルを任意に長文で推論できるような,比較的単純なBanilla BERTアーキテクチャであるChunkBERTを提案する。
論文 参考訳(メタデータ) (2023-10-31T15:41:08Z) - Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。
我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2023-09-19T02:59:41Z) - AMOM: Adaptive Masking over Masking for Conditional Masked Language
Model [81.55294354206923]
条件付きマスク付き言語モデル(CMLM)は最も汎用性の高いフレームワークの1つである。
本稿では,デコーダの高精細化を実現するため,マスク戦略よりもシンプルで効果的な適応マスキングを提案する。
提案モデルにより,ニューラルマシン翻訳における最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-03-13T20:34:56Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - BERT, mBERT, or BiBERT? A Study on Contextualized Embeddings for Neural
Machine Translation [38.017030073108735]
本稿では,バイリンガル事前学習型言語モデル(BiBERT)が最先端の翻訳性能を実現することを示す。
我々の最良のモデルは、IWSLT'14データセットでは30.45点、IWSLT'14データセットでは38.61点、WMT'14データセットでは31.26点、WMT'14データセットでは34.94点である。
論文 参考訳(メタデータ) (2021-09-09T23:43:41Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - DynaBERT: Dynamic BERT with Adaptive Width and Depth [55.18269622415814]
我々は新しい動的BERTモデル(DynaBERTと略される)を提案する。
適応的な幅と深さを選択することで、サイズとレイテンシを柔軟に調整できる。
既存のBERT圧縮手法よりずっと優れています。
論文 参考訳(メタデータ) (2020-04-08T15:06:28Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。