論文の概要: NarrowBERT: Accelerating Masked Language Model Pretraining and Inference
- arxiv url: http://arxiv.org/abs/2301.04761v2
- Date: Mon, 5 Jun 2023 23:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 21:05:07.266035
- Title: NarrowBERT: Accelerating Masked Language Model Pretraining and Inference
- Title(参考訳): NarrowBERT: タスク付き言語モデルの事前トレーニングと推論の高速化
- Authors: Haoxin Li, Phillip Keung, Daniel Cheng, Jungo Kasai, Noah A. Smith
- Abstract要約: そこで我々はNarrowBERTを提案する。NarrowBERTは改良されたトランスフォーマーエンコーダで、マスク付き言語モデルのプリトレーニングのスループットを2ドル以上の値で向上させる。
NarrowBERTは、自己アテンションクエリとフィードフォワード層が事前トレーニング中に各文のマスク付きトークンでのみ動作するように、トランスフォーマーモデルをスペーサー化する。
NarrowBERTは、MNLIのような文符号化タスクにおいて、最小(またはノー)のパフォーマンス劣化を伴って、$3.5times$で推論時にスループットを向上することを示す。
- 参考スコア(独自算出の注目度): 50.59811343945605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale language model pretraining is a very successful form of
self-supervised learning in natural language processing, but it is increasingly
expensive to perform as the models and pretraining corpora have become larger
over time. We propose NarrowBERT, a modified transformer encoder that increases
the throughput for masked language model pretraining by more than $2\times$.
NarrowBERT sparsifies the transformer model such that the self-attention
queries and feedforward layers only operate on the masked tokens of each
sentence during pretraining, rather than all of the tokens as with the usual
transformer encoder. We also show that NarrowBERT increases the throughput at
inference time by as much as $3.5\times$ with minimal (or no) performance
degradation on sentence encoding tasks like MNLI. Finally, we examine the
performance of NarrowBERT on the IMDB and Amazon reviews classification and
CoNLL NER tasks and show that it is also comparable to standard BERT
performance.
- Abstract(参考訳): 大規模言語モデル事前学習は、自然言語処理における自己教師型学習の非常に成功した形態であるが、モデルと事前学習コーパスが時間とともに大きくなるにつれて、実行コストが増大する。
我々は,マスク言語モデルの事前学習のスループットを$2\times$ 以上向上させるトランスフォーマティブエンコーダである narrowbert を提案する。
NarrowBERTは、トランスフォーマーモデルにおいて、通常のトランスフォーマーエンコーダのように全てのトークンではなく、事前トレーニング中に各文のマスク付きトークンに対してのみ、自己アテンションクエリとフィードフォワード層が動作するようにスペーサーする。
また, mnli などの文符号化タスクの性能低下を最小限に抑えることで, 推定時のスループットを最大$3.5\times$ で向上させることを示した。
最後に,IMDBおよびAmazonレビューにおけるNarrowBERTの性能とCoNLL NERタスクについて検討し,標準BERT性能と同等であることを示す。
関連論文リスト
- BPDec: Unveiling the Potential of Masked Language Modeling Decoder in BERT pretraining [0.5919433278490629]
BERT (Bidirectional Representations from Transformers) は、自然言語処理の分野に革命をもたらした。
DeBERTaは、BERTのエンコーダモデルに適応した拡張デコーダを導入した。
マスク付き言語モデリングデコーダの設計と研究は不十分である。
論文 参考訳(メタデータ) (2024-01-29T03:25:11Z) - MosaicBERT: A Bidirectional Encoder Optimized for Fast Pretraining [10.421048804389343]
本稿では,BERTスタイルのエンコーダアーキテクチャであるMosaicBERTを紹介する。
C4データセットのスクラッチから事前トレーニングされた場合、このベースモデルは、約20ドルで8 A100 80 GB GPU上で1.13時間の平均GLUEスコア79.6を達成する。
この事前トレーニングでの実証的なスピードアップにより、研究者やエンジニアは既存のジェネリックモデルの微調整ではなく、BERTスタイルのカスタムモデルを低コストで事前トレーニングすることができる。
論文 参考訳(メタデータ) (2023-12-29T06:05:19Z) - DecBERT: Enhancing the Language Understanding of BERT with Causal
Attention Masks [33.558503823505056]
本研究では,因果注意マスクを用いたBERTの位置符号化能力の向上に焦点をあてる。
本稿では,新たな事前学習型言語モデルDecBERTを提案し,GLUEベンチマークで評価する。
実験の結果,(1)因果注意マスクは言語理解タスクにおいてBERTに有効であること,(2)位置埋め込みのないDecBERTモデルはGLUEベンチマークで同等のパフォーマンスを達成できること,(3)修正によって事前学習プロセスが促進され,DecBERTはベースラインシステムよりも全体的な性能が向上すること,などが示されている。
論文 参考訳(メタデータ) (2022-04-19T06:12:48Z) - Universal Conditional Masked Language Pre-training for Neural Machine
Translation [29.334361879066602]
本稿では,大規模バイリンガルコーパスとモノリンガルコーパスを事前学習した条件付きマスク付き言語モデルCeMATを提案する。
我々は広範囲な実験を行い、CeMATがすべてのシナリオで大幅なパフォーマンス向上を達成できることを示します。
論文 参考訳(メタデータ) (2022-03-17T10:00:33Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - lamBERT: Language and Action Learning Using Multimodal BERT [0.1942428068361014]
本研究では,マルチモーダルBERT(lamBERT)モデルを用いた言語と行動学習を提案する。
実験は、エージェントが適切に振る舞うために言語理解を必要とするグリッド環境で行われる。
lamBERTモデルは、他のモデルと比較してマルチタスク設定や転送設定において高い報酬を得た。
論文 参考訳(メタデータ) (2020-04-15T13:54:55Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。