論文の概要: Token Dropping for Efficient BERT Pretraining
- arxiv url: http://arxiv.org/abs/2203.13240v1
- Date: Thu, 24 Mar 2022 17:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 13:03:08.911864
- Title: Token Dropping for Efficient BERT Pretraining
- Title(参考訳): 効率的なBERT事前学習のためのトークンドロップ
- Authors: Le Hou, Richard Yuanzhe Pang, Tianyi Zhou, Yuexin Wu, Xinying Song,
Xiaodan Song, Denny Zhou
- Abstract要約: 本研究では,変圧器モデルの事前学習を高速化する簡易かつ効果的な「トーケンドロップ」手法を開発した。
我々は既に組み込まれているマスキング言語モデリング(MLM)の損失を利用して、計算オーバーヘッドのない重要でないトークンを識別する。
この単純なアプローチは、BERTの事前トレーニングコストを25%削減し、標準の下流タスクで同様の微調整性能を実現する。
- 参考スコア(独自算出の注目度): 33.63507016806947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models generally allocate the same amount of computation
for each token in a given sequence. We develop a simple but effective "token
dropping" method to accelerate the pretraining of transformer models, such as
BERT, without degrading its performance on downstream tasks. In short, we drop
unimportant tokens starting from an intermediate layer in the model to make the
model focus on important tokens; the dropped tokens are later picked up by the
last layer of the model so that the model still produces full-length sequences.
We leverage the already built-in masked language modeling (MLM) loss to
identify unimportant tokens with practically no computational overhead. In our
experiments, this simple approach reduces the pretraining cost of BERT by 25%
while achieving similar overall fine-tuning performance on standard downstream
tasks.
- Abstract(参考訳): トランスフォーマーベースのモデルは一般に、与えられたシーケンスの各トークンに対して同じ量の計算を割り当てる。
bertなどのトランスフォーマーモデルの事前学習を,ダウンストリームタスクの性能を低下させることなく高速化する,単純かつ効果的な「分岐降下」手法を開発した。
簡単に言えば、モデル内の中間層から始まる重要でないトークンをドロップして、重要なトークンにモデルを集中させる。
我々は既に組み込まれているマスキング言語モデリング(MLM)の損失を利用して、計算オーバーヘッドのない重要でないトークンを特定する。
実験では、この単純なアプローチにより、BERTの事前学習コストを25%削減すると同時に、標準下流タスクの全体的な微調整性能も向上する。
関連論文リスト
- Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification [6.660834045805309]
BERTのような事前訓練されたトランスフォーマーは計算コストのかかる自己保持機構に悩まされる。
トークンプルーニングとトークンの組み合わせという2つの戦略を統合することを提案する。
さまざまなデータセットによる実験は、ベースラインモデルよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-03T12:51:52Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Unlocking the Transferability of Tokens in Deep Models for Tabular Data [67.11727608815636]
トレーニング済みのディープニューラルネットワークの微調整は、さまざまな機械学習タスクにおいて成功しているパラダイムとなっている。
本稿では,特徴トークンの品質向上を目的としたTabTokenを提案する。
トークンを規則化し、機能内および機能間のセマンティクスをキャプチャする、対照的な目的を導入します。
論文 参考訳(メタデータ) (2023-10-23T17:53:09Z) - Revisiting Token Dropping Strategy in Efficient BERT Pretraining [102.24112230802011]
トークンドロップは、複数の中間層で入力トークンのサブセットの計算をスキップすることで、BERTのようなマスク付き言語モデルの事前トレーニングを高速化する戦略である。
しかし,トークンのドロップは意味的損失問題を起こしやすく,意味論的タスクの処理に不足していることが実証的に判明した。
そこで本研究では,トークンのドロップを改善するために,シンプルで効果的な意味一貫性学習法(ScTD)を提案する。
論文 参考訳(メタデータ) (2023-05-24T15:59:44Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Position Masking for Language Models [0.0]
Masked Language Modeling (MLM) は、BERT などの事前学習モデルで、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
マスクされた入力トークンIDとともに、いくつかのトークンの位置をマスキングすることで、このアイデアを拡大することを提案する。
論文 参考訳(メタデータ) (2020-06-02T23:40:41Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。