論文の概要: DrBERT: Unveiling the Potential of Masked Language Modeling Decoder in
BERT pretraining
- arxiv url: http://arxiv.org/abs/2401.15861v1
- Date: Mon, 29 Jan 2024 03:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 16:17:00.214761
- Title: DrBERT: Unveiling the Potential of Masked Language Modeling Decoder in
BERT pretraining
- Title(参考訳): DrBERT: BERT事前学習におけるマスク言語モデリングデコーダの可能性
- Authors: Wen Liang, Youzhi Liang
- Abstract要約: BERT (Bidirectional Representations from Transformers) は、自然言語処理の分野に革命をもたらした。
DeBERTaは、BERTのエンコーダモデルに適応した拡張デコーダを導入した。
本稿では,拡張デコーダの設計をいくつか提案し,新しいモデリング手法であるDrBERTを提案する。
- 参考スコア(独自算出の注目度): 0.6993026261767287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: BERT (Bidirectional Encoder Representations from Transformers) has
revolutionized the field of natural language processing through its exceptional
performance on numerous tasks. Yet, the majority of researchers have mainly
concentrated on enhancements related to the model structure, such as relative
position embedding and more efficient attention mechanisms. Others have delved
into pretraining tricks associated with Masked Language Modeling, including
whole word masking. DeBERTa introduced an enhanced decoder adapted for BERT's
encoder model for pretraining, proving to be highly effective. We argue that
the design and research around enhanced masked language modeling decoders have
been underappreciated. In this paper, we propose several designs of enhanced
decoders and introduce DrBERT (Decoder-refined BERT), a novel method for
modeling training. Typically, a pretrained BERT model is fine-tuned for
specific Natural Language Understanding (NLU) tasks. In our approach, we
utilize the original BERT model as the encoder, making only changes to the
decoder without altering the encoder. This approach does not necessitate
extensive modifications to the model's architecture and can be seamlessly
integrated into existing fine-tuning pipelines and services, offering an
efficient and effective enhancement strategy. Compared to other methods, while
we also incur a moderate training cost for the decoder during the pretraining
process, our approach does not introduce additional training costs during the
fine-tuning phase. We test multiple enhanced decoder structures after
pretraining and evaluate their performance on the GLUE benchmark. Our results
demonstrate that DrBERT, having only undergone subtle refinements to the model
structure during pretraining, significantly enhances model performance without
escalating the inference time and serving budget.
- Abstract(参考訳): BERT(Bidirectional Encoder Representations from Transformers)は、自然言語処理の分野に革命をもたらした。
しかし、研究者の大半は、相対的な位置埋め込みやより効率的な注意機構など、モデル構造に関連する拡張に集中してきた。
Masked Language Modelingに関連する事前トレーニングのトリックには、全体的な単語マスキングも含まれる。
DeBERTaは、BERTのエンコーダモデルに適応した拡張デコーダを導入した。
マスク付き言語モデリングデコーダの設計と研究は過小評価されていると論じている。
本稿では,拡張デコーダの設計をいくつか提案し,新しいモデリング手法であるDrBERT(Decoder-refined BERT)を提案する。
通常、事前訓練されたBERTモデルは、特定の自然言語理解(NLU)タスクのために微調整される。
提案手法では,元のBERTモデルをエンコーダとして使用し,エンコーダを変更することなくデコーダを変更する。
このアプローチは、モデルのアーキテクチャに大きな変更を必要とせず、既存の微調整パイプラインやサービスとシームレスに統合することができ、効率的かつ効果的な拡張戦略を提供する。
他の方法と比較して、プレトレーニングプロセス中にデコーダの適度なトレーニングコストが発生するのに対し、本手法は微調整フェーズ中に追加のトレーニングコストを導入しない。
プレトレーニング後,複数の拡張デコーダ構造をテストし,その性能をGLUEベンチマークで評価した。
本研究は,プレトレーニング中にモデル構造に微妙な改良を施したDrBERTが,推定時間と予算を増大させることなくモデル性能を著しく向上することを示した。
関連論文リスト
- MosaicBERT: A Bidirectional Encoder Optimized for Fast Pretraining [10.421048804389343]
本稿では,BERTスタイルのエンコーダアーキテクチャであるMosaicBERTを紹介する。
C4データセットのスクラッチから事前トレーニングされた場合、このベースモデルは、約20ドルで8 A100 80 GB GPU上で1.13時間の平均GLUEスコア79.6を達成する。
この事前トレーニングでの実証的なスピードアップにより、研究者やエンジニアは既存のジェネリックモデルの微調整ではなく、BERTスタイルのカスタムモデルを低コストで事前トレーニングすることができる。
論文 参考訳(メタデータ) (2023-12-29T06:05:19Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - CoLLD: Contrastive Layer-to-layer Distillation for Compressing
Multilingual Pre-trained Speech Encoders [19.32466171141613]
大規模自己教師型事前学習音声エンコーダは、音声認識や翻訳タスクにおいて従来の手法よりも優れていた。
新しいタスクのための新しいエンコーダを構築し、デバイス上のアプリケーションにデプロイすることは不可能である。
本研究では,事前学習した音声エンコーダを圧縮する新しい知識蒸留法であるContrastive Layer-to-layer Distillation (CoLLD)を提案する。
論文 参考訳(メタデータ) (2023-09-14T13:38:02Z) - NarrowBERT: Accelerating Masked Language Model Pretraining and Inference [50.59811343945605]
そこで我々はNarrowBERTを提案する。NarrowBERTは改良されたトランスフォーマーエンコーダで、マスク付き言語モデルのプリトレーニングのスループットを2ドル以上の値で向上させる。
NarrowBERTは、自己アテンションクエリとフィードフォワード層が事前トレーニング中に各文のマスク付きトークンでのみ動作するように、トランスフォーマーモデルをスペーサー化する。
NarrowBERTは、MNLIのような文符号化タスクにおいて、最小(またはノー)のパフォーマンス劣化を伴って、$3.5times$で推論時にスループットを向上することを示す。
論文 参考訳(メタデータ) (2023-01-11T23:45:50Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Jointly Optimizing State Operation Prediction and Value Generation for
Dialogue State Tracking [23.828348485513043]
オープン語彙を用いた多ドメイン対話状態追跡(DST)の問題点について検討する。
既存のアプローチではBERTエンコーダとコピーベースのRNNデコーダを使用し、そこでエンコーダは状態操作を予測し、デコーダは新しいスロット値を生成する。
本稿では,1つのBERTがエンコーダとデコーダの両方として機能する,純粋にトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-24T04:54:52Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。