論文の概要: BPDec: Unveiling the Potential of Masked Language Modeling Decoder in BERT pretraining
- arxiv url: http://arxiv.org/abs/2401.15861v3
- Date: Sat, 8 Jun 2024 10:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 03:59:13.467583
- Title: BPDec: Unveiling the Potential of Masked Language Modeling Decoder in BERT pretraining
- Title(参考訳): BPDec:BERT事前学習におけるマスク言語モデリングデコーダの可能性を明らかにする
- Authors: Wen Liang, Youzhi Liang,
- Abstract要約: BERT (Bidirectional Representations from Transformers) は、自然言語処理の分野に革命をもたらした。
DeBERTaは、BERTのエンコーダモデルに適応した拡張デコーダを導入した。
マスク付き言語モデリングデコーダの設計と研究は不十分である。
- 参考スコア(独自算出の注目度): 0.5919433278490629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: BERT (Bidirectional Encoder Representations from Transformers) has revolutionized the field of natural language processing through its exceptional performance on numerous tasks. Yet, the majority of researchers have mainly concentrated on enhancements related to the model structure, such as relative position embedding and more efficient attention mechanisms. Others have delved into pretraining tricks associated with Masked Language Modeling, including whole word masking. DeBERTa introduced an enhanced decoder adapted for BERT's encoder model for pretraining, proving to be highly effective. We argue that the design and research around enhanced masked language modeling decoders have been underappreciated. In this paper, we propose several designs of enhanced decoders and introduce BPDec (BERT Pretraining Decoder), a novel method for modeling training. Typically, a pretrained BERT model is fine-tuned for specific Natural Language Understanding (NLU) tasks. In our approach, we utilize the original BERT model as the encoder, making only changes to the decoder without altering the encoder. This approach does not necessitate extensive modifications to the encoder architecture and can be seamlessly integrated into existing fine-tuning pipelines and services, offering an efficient and effective enhancement strategy. Compared to other methods, while we also incur a moderate training cost for the decoder during the pretraining process, our approach does not introduce additional training costs during the fine-tuning phase. We test multiple enhanced decoder structures after pretraining and evaluate their performance on the GLUE tasks and SQuAD tasks. Our results demonstrate that BPDec, having only undergone subtle refinements to the model structure during pretraining, significantly enhances model performance without escalating the finetuning cost, inference time and serving budget.
- Abstract(参考訳): BERT(Bidirectional Encoder Representations from Transformers)は、自然言語処理の分野に革命をもたらした。
しかし、ほとんどの研究者は、相対的な位置埋め込みやより効率的な注意機構など、モデル構造に関連する拡張に集中してきた。
Masked Language Modelingに関連する事前トレーニングのトリックには、全体的な単語マスキングも含まれる。
DeBERTaは、BERTのエンコーダモデルに適応した拡張デコーダを導入した。
マスク付き言語モデリングデコーダの設計と研究は不十分である。
本稿では,拡張デコーダの設計とBPDec(BERT Pretraining Decoder)の導入について述べる。
通常、事前訓練されたBERTモデルは、特定の自然言語理解(NLU)タスクのために微調整される。
提案手法では,元のBERTモデルをエンコーダとして使用し,エンコーダを変更することなくデコーダを変更する。
このアプローチはエンコーダアーキテクチャに広範な変更を加える必要はなく、既存の微調整パイプラインやサービスにシームレスに統合され、効率的かつ効果的な拡張戦略を提供する。
他の方法と比較して、プレトレーニングプロセス中にデコーダの適度なトレーニングコストを発生させるのに対し、本手法は微調整フェーズ中に追加のトレーニングコストを導入しない。
我々は,GLUEタスクとSQuADタスクの事前学習後,複数の拡張デコーダ構造をテストし,その性能を評価する。
以上の結果から,BPDecは事前訓練中にモデル構造に微妙な改良を施しただけで,微調整コスト,推論時間,サービス予算を増大させることなく,モデル性能を著しく向上させることがわかった。
関連論文リスト
- MosaicBERT: A Bidirectional Encoder Optimized for Fast Pretraining [10.421048804389343]
本稿では,BERTスタイルのエンコーダアーキテクチャであるMosaicBERTを紹介する。
C4データセットのスクラッチから事前トレーニングされた場合、このベースモデルは、約20ドルで8 A100 80 GB GPU上で1.13時間の平均GLUEスコア79.6を達成する。
この事前トレーニングでの実証的なスピードアップにより、研究者やエンジニアは既存のジェネリックモデルの微調整ではなく、BERTスタイルのカスタムモデルを低コストで事前トレーニングすることができる。
論文 参考訳(メタデータ) (2023-12-29T06:05:19Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - CoLLD: Contrastive Layer-to-layer Distillation for Compressing
Multilingual Pre-trained Speech Encoders [19.32466171141613]
大規模自己教師型事前学習音声エンコーダは、音声認識や翻訳タスクにおいて従来の手法よりも優れていた。
新しいタスクのための新しいエンコーダを構築し、デバイス上のアプリケーションにデプロイすることは不可能である。
本研究では,事前学習した音声エンコーダを圧縮する新しい知識蒸留法であるContrastive Layer-to-layer Distillation (CoLLD)を提案する。
論文 参考訳(メタデータ) (2023-09-14T13:38:02Z) - NarrowBERT: Accelerating Masked Language Model Pretraining and Inference [50.59811343945605]
そこで我々はNarrowBERTを提案する。NarrowBERTは改良されたトランスフォーマーエンコーダで、マスク付き言語モデルのプリトレーニングのスループットを2ドル以上の値で向上させる。
NarrowBERTは、自己アテンションクエリとフィードフォワード層が事前トレーニング中に各文のマスク付きトークンでのみ動作するように、トランスフォーマーモデルをスペーサー化する。
NarrowBERTは、MNLIのような文符号化タスクにおいて、最小(またはノー)のパフォーマンス劣化を伴って、$3.5times$で推論時にスループットを向上することを示す。
論文 参考訳(メタデータ) (2023-01-11T23:45:50Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Jointly Optimizing State Operation Prediction and Value Generation for
Dialogue State Tracking [23.828348485513043]
オープン語彙を用いた多ドメイン対話状態追跡(DST)の問題点について検討する。
既存のアプローチではBERTエンコーダとコピーベースのRNNデコーダを使用し、そこでエンコーダは状態操作を予測し、デコーダは新しいスロット値を生成する。
本稿では,1つのBERTがエンコーダとデコーダの両方として機能する,純粋にトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-24T04:54:52Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。