論文の概要: DecBERT: Enhancing the Language Understanding of BERT with Causal
Attention Masks
- arxiv url: http://arxiv.org/abs/2204.08688v1
- Date: Tue, 19 Apr 2022 06:12:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 14:35:39.486582
- Title: DecBERT: Enhancing the Language Understanding of BERT with Causal
Attention Masks
- Title(参考訳): DecBERT: 因果注意マスクによるBERTの言語理解の促進
- Authors: Ziyang Luo, Yadong Xi, Jing Ma, Zhiwei Yang, Xiaoxi Mao, Changjie Fan,
Rongsheng Zhang
- Abstract要約: 本研究では,因果注意マスクを用いたBERTの位置符号化能力の向上に焦点をあてる。
本稿では,新たな事前学習型言語モデルDecBERTを提案し,GLUEベンチマークで評価する。
実験の結果,(1)因果注意マスクは言語理解タスクにおいてBERTに有効であること,(2)位置埋め込みのないDecBERTモデルはGLUEベンチマークで同等のパフォーマンスを達成できること,(3)修正によって事前学習プロセスが促進され,DecBERTはベースラインシステムよりも全体的な性能が向上すること,などが示されている。
- 参考スコア(独自算出の注目度): 33.558503823505056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since 2017, the Transformer-based models play critical roles in various
downstream Natural Language Processing tasks. However, a common limitation of
the attention mechanism utilized in Transformer Encoder is that it cannot
automatically capture the information of word order, so explicit position
embeddings are generally required to be fed into the target model. In contrast,
Transformer Decoder with the causal attention masks is naturally sensitive to
the word order. In this work, we focus on improving the position encoding
ability of BERT with the causal attention masks. Furthermore, we propose a new
pre-trained language model DecBERT and evaluate it on the GLUE benchmark.
Experimental results show that (1) the causal attention mask is effective for
BERT on the language understanding tasks; (2) our DecBERT model without
position embeddings achieve comparable performance on the GLUE benchmark; and
(3) our modification accelerates the pre-training process and DecBERT w/ PE
achieves better overall performance than the baseline systems when pre-training
with the same amount of computational resources.
- Abstract(参考訳): 2017年以降、トランスフォーマーベースのモデルは、下流の様々な自然言語処理タスクにおいて重要な役割を果たす。
しかし、トランスコーダで使用されるアテンション機構の一般的な制限は、自動的に単語順の情報をキャプチャできないことである。
対照的に、因果注意マスク付きトランスフォーマーデコーダは、単語の順序に自然に敏感である。
本研究では,因果注意マスクを用いたBERTの位置符号化能力の向上に焦点をあてる。
さらに,事前学習型言語モデルDecBERTを提案し,GLUEベンチマークで評価する。
実験の結果,(1)因果注意マスクが言語理解タスクにおいてBERTに有効であること,(2)位置埋め込みのないDecBERTモデルがGLUEベンチマークで同等の性能を発揮すること,(3)修正によって事前学習プロセスが加速すること,およびDecBERT w/PEが,同じ量の計算資源で事前学習する際のベースラインシステムよりも全体的な性能が向上すること,などが示されている。
関連論文リスト
- StableMask: Refining Causal Masking in Decoder-only Transformer [22.75632485195928]
因果マスキングと相対位置符号化(RPE)を備えたデコーダのみのトランスフォーマーアーキテクチャは、言語モデリングにおいて事実上の選択肢となっている。
しかし、現在の埋め込みが十分な自己完結した情報を持っている場合でも、すべての注意スコアはゼロではなく1まで総和でなければならない。
因果マスクを精細化することで両方の制約に対処するパラメータフリー手法であるStableMaskを提案する。
論文 参考訳(メタデータ) (2024-02-07T12:01:02Z) - BPDec: Unveiling the Potential of Masked Language Modeling Decoder in BERT pretraining [0.5919433278490629]
BERT (Bidirectional Representations from Transformers) は、自然言語処理の分野に革命をもたらした。
DeBERTaは、BERTのエンコーダモデルに適応した拡張デコーダを導入した。
マスク付き言語モデリングデコーダの設計と研究は不十分である。
論文 参考訳(メタデータ) (2024-01-29T03:25:11Z) - Improving BERT with Hybrid Pooling Network and Drop Mask [7.132769083122907]
BERTは言語情報のリッチな階層を異なる層でキャプチャする。
バニラBERTは各レイヤに対して同じ自己認識メカニズムを使用して、異なるコンテキスト特徴をモデル化する。
本稿では,各レイヤの異なるコンテキスト特徴をエンコードするために,自己アテンションとプーリングネットワークを組み合わせたHybridBERTモデルを提案する。
論文 参考訳(メタデータ) (2023-07-14T10:20:08Z) - NarrowBERT: Accelerating Masked Language Model Pretraining and Inference [50.59811343945605]
そこで我々はNarrowBERTを提案する。NarrowBERTは改良されたトランスフォーマーエンコーダで、マスク付き言語モデルのプリトレーニングのスループットを2ドル以上の値で向上させる。
NarrowBERTは、自己アテンションクエリとフィードフォワード層が事前トレーニング中に各文のマスク付きトークンでのみ動作するように、トランスフォーマーモデルをスペーサー化する。
NarrowBERTは、MNLIのような文符号化タスクにおいて、最小(またはノー)のパフォーマンス劣化を伴って、$3.5times$で推論時にスループットを向上することを示す。
論文 参考訳(メタデータ) (2023-01-11T23:45:50Z) - Word Order Matters when you Increase Masking [70.29624135819884]
本研究では,事前学習対象自体に対する位置エンコーディングの除去効果について検討し,モデルが共起点のみの位置情報を再構成できるかどうかを検証した。
位置情報の必要性はマスキングの量とともに増大し、位置エンコーディングのないマスキング言語モデルではタスク上でこの情報を再構築できないことがわかった。
論文 参考訳(メタデータ) (2022-11-08T18:14:04Z) - Position Prediction as an Effective Pretraining Strategy [20.925906203643883]
本稿では,コンテンツからの位置を予測し,位置情報を提供することなく,コンテンツを再構築する手法を提案する。
提案手法は,教師なし/自己教師付き事前学習手法に匹敵する,強い教師付きトレーニングベースラインの改善をもたらす。
論文 参考訳(メタデータ) (2022-07-15T17:10:48Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。