論文の概要: Improving BERT with Hybrid Pooling Network and Drop Mask
- arxiv url: http://arxiv.org/abs/2307.07258v1
- Date: Fri, 14 Jul 2023 10:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 14:22:57.754276
- Title: Improving BERT with Hybrid Pooling Network and Drop Mask
- Title(参考訳): ハイブリッドポーリングネットワークとドロップマスクによるBERTの改善
- Authors: Qian Chen, Wen Wang, Qinglin Zhang, Chong Deng, Ma Yukun, Siqi Zheng
- Abstract要約: BERTは言語情報のリッチな階層を異なる層でキャプチャする。
バニラBERTは各レイヤに対して同じ自己認識メカニズムを使用して、異なるコンテキスト特徴をモデル化する。
本稿では,各レイヤの異なるコンテキスト特徴をエンコードするために,自己アテンションとプーリングネットワークを組み合わせたHybridBERTモデルを提案する。
- 参考スコア(独自算出の注目度): 7.132769083122907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based pre-trained language models, such as BERT, achieve great
success in various natural language understanding tasks. Prior research found
that BERT captures a rich hierarchy of linguistic information at different
layers. However, the vanilla BERT uses the same self-attention mechanism for
each layer to model the different contextual features. In this paper, we
propose a HybridBERT model which combines self-attention and pooling networks
to encode different contextual features in each layer. Additionally, we propose
a simple DropMask method to address the mismatch between pre-training and
fine-tuning caused by excessive use of special mask tokens during Masked
Language Modeling pre-training. Experiments show that HybridBERT outperforms
BERT in pre-training with lower loss, faster training speed (8% relative),
lower memory cost (13% relative), and also in transfer learning with 1.5%
relative higher accuracies on downstream tasks. Additionally, DropMask improves
accuracies of BERT on downstream tasks across various masking rates.
- Abstract(参考訳): BERTのようなトランスフォーマーベースの事前学習言語モデルは、様々な自然言語理解タスクで大きな成功を収めている。
以前の研究では、BERTは言語情報のリッチな階層を異なる層で捉えていた。
しかしながら、バニラBERTは各レイヤに対して同じ自己認識メカニズムを使用して、異なるコンテキスト特徴をモデル化する。
本稿では,各レイヤの異なるコンテキスト特徴を符号化するために,自己アテンションとプーリングネットワークを組み合わせたHybridBERTモデルを提案する。
さらに,マスクモデルにおける特殊マスクトークンの過剰使用による事前学習と微調整のミスマッチに対処するための簡易ドロップマスク法を提案する。
実験の結果、HybridBERTはBERTよりも低損失、高速なトレーニング速度(8%相対)、低メモリコスト(13%相対)、下流タスクの1.5%高い精度で転送学習に優れていた。
さらにDropMaskは、さまざまなマスキングレートで下流タスクにおけるBERTの精度を改善している。
関連論文リスト
- Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。
我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2023-09-19T02:59:41Z) - Weighted Sampling for Masked Language Modeling [12.25238763907731]
トークン周波数とトレーニング損失に基づいてトークンをマスキングするための2つの簡易かつ効果的な重み付きサンプリング手法を提案する。
これら2つの戦略をBERTに適用し、重み付きBERT(WSBERT)を得る。
論文 参考訳(メタデータ) (2023-02-28T01:07:39Z) - NarrowBERT: Accelerating Masked Language Model Pretraining and Inference [50.59811343945605]
そこで我々はNarrowBERTを提案する。NarrowBERTは改良されたトランスフォーマーエンコーダで、マスク付き言語モデルのプリトレーニングのスループットを2ドル以上の値で向上させる。
NarrowBERTは、自己アテンションクエリとフィードフォワード層が事前トレーニング中に各文のマスク付きトークンでのみ動作するように、トランスフォーマーモデルをスペーサー化する。
NarrowBERTは、MNLIのような文符号化タスクにおいて、最小(またはノー)のパフォーマンス劣化を伴って、$3.5times$で推論時にスループットを向上することを示す。
論文 参考訳(メタデータ) (2023-01-11T23:45:50Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - DecBERT: Enhancing the Language Understanding of BERT with Causal
Attention Masks [33.558503823505056]
本研究では,因果注意マスクを用いたBERTの位置符号化能力の向上に焦点をあてる。
本稿では,新たな事前学習型言語モデルDecBERTを提案し,GLUEベンチマークで評価する。
実験の結果,(1)因果注意マスクは言語理解タスクにおいてBERTに有効であること,(2)位置埋め込みのないDecBERTモデルはGLUEベンチマークで同等のパフォーマンスを達成できること,(3)修正によって事前学習プロセスが促進され,DecBERTはベースラインシステムよりも全体的な性能が向上すること,などが示されている。
論文 参考訳(メタデータ) (2022-04-19T06:12:48Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-10-13T03:25:15Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z) - BERT's output layer recognizes all hidden layers? Some Intriguing
Phenomena and a simple way to boost BERT [53.63288887672302]
変換器による双方向表現(BERT)は多くの自然言語処理(NLP)タスクで大きな成功を収めている。
その結果,BERTの各層を直接入力として取り込むことで,BERTの出力層が入力文を再構築できることが判明した。
本稿では,BERTの性能向上のための非常に単純な手法を提案する。
論文 参考訳(メタデータ) (2020-01-25T13:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。