論文の概要: Revisiting Token Dropping Strategy in Efficient BERT Pretraining
- arxiv url: http://arxiv.org/abs/2305.15273v1
- Date: Wed, 24 May 2023 15:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:44:09.394548
- Title: Revisiting Token Dropping Strategy in Efficient BERT Pretraining
- Title(参考訳): 効率的なBERT事前学習におけるトークン投下戦略の再検討
- Authors: Qihuang Zhong, Liang Ding, Juhua Liu, Xuebo Liu, Min Zhang, Bo Du and
Dacheng Tao
- Abstract要約: トークンドロップは、複数の中間層で入力トークンのサブセットの計算をスキップすることで、BERTのようなマスク付き言語モデルの事前トレーニングを高速化する戦略である。
しかし,トークンのドロップは意味的損失問題を起こしやすく,意味論的タスクの処理に不足していることが実証的に判明した。
そこで本研究では,トークンのドロップを改善するために,シンプルで効果的な意味一貫性学習法(ScTD)を提案する。
- 参考スコア(独自算出の注目度): 102.24112230802011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Token dropping is a recently-proposed strategy to speed up the pretraining of
masked language models, such as BERT, by skipping the computation of a subset
of the input tokens at several middle layers. It can effectively reduce the
training time without degrading much performance on downstream tasks. However,
we empirically find that token dropping is prone to a semantic loss problem and
falls short in handling semantic-intense tasks. Motivated by this, we propose a
simple yet effective semantic-consistent learning method (ScTD) to improve the
token dropping. ScTD aims to encourage the model to learn how to preserve the
semantic information in the representation space. Extensive experiments on 12
tasks show that, with the help of our ScTD, token dropping can achieve
consistent and significant performance gains across all task types and model
sizes. More encouragingly, ScTD saves up to 57% of pretraining time and brings
up to +1.56% average improvement over the vanilla token dropping.
- Abstract(参考訳): トークンドロップは、複数の中間層で入力トークンのサブセットの計算をスキップすることで、BERTのようなマスク付き言語モデルの事前トレーニングを高速化する、最近提案された戦略である。
下流タスクのパフォーマンスを劣化させることなく、トレーニング時間を効果的に削減できる。
しかし,トークンのドロップは意味的損失問題を起こしやすく,意味論的タスクの処理に不足していることが実証的に判明した。
そこで本研究では,トークンドロップを改善するための簡易かつ効果的な意味一貫性学習手法(sctd)を提案する。
ScTDの目的は、表現空間における意味情報の保存方法を学ぶことをモデルに奨励することである。
12のタスクに関する大規模な実験は、ScTDの助けを借りて、トークンのドロップがすべてのタスクタイプとモデルサイズで一貫性があり、重要なパフォーマンス向上を達成することを示しています。
さらに奨励的に、ScTDは事前トレーニング時間の最大57%を節約し、バニラトークンのドロップよりも平均1.56%改善する。
関連論文リスト
- Unlocking the Transferability of Tokens in Deep Models for Tabular Data [67.11727608815636]
トレーニング済みのディープニューラルネットワークの微調整は、さまざまな機械学習タスクにおいて成功しているパラダイムとなっている。
本稿では,特徴トークンの品質向上を目的としたTabTokenを提案する。
トークンを規則化し、機能内および機能間のセマンティクスをキャプチャする、対照的な目的を導入します。
論文 参考訳(メタデータ) (2023-10-23T17:53:09Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Token Dropping for Efficient BERT Pretraining [33.63507016806947]
本研究では,変圧器モデルの事前学習を高速化する簡易かつ効果的な「トーケンドロップ」手法を開発した。
我々は既に組み込まれているマスキング言語モデリング(MLM)の損失を利用して、計算オーバーヘッドのない重要でないトークンを識別する。
この単純なアプローチは、BERTの事前トレーニングコストを25%削減し、標準の下流タスクで同様の微調整性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T17:50:46Z) - AdapLeR: Speeding up Inference by Adaptive Length Reduction [15.57872065467772]
本稿では,下流性能の低下を最小限に抑えながら,BERTの計算コストを削減する手法を提案する。
提案手法は,レイヤ間のコントリビューションの少ないトークンを動的に除去し,結果として長さが短くなり,計算コストが低下する。
様々な分類タスクに関する実験では、性能の犠牲を伴わずに、推論時間中に最大22倍のスピードアップを示す。
論文 参考訳(メタデータ) (2022-03-16T23:41:38Z) - A Simple Baseline for Semi-supervised Semantic Segmentation with Strong
Data Augmentation [74.8791451327354]
セマンティックセグメンテーションのためのシンプルで効果的な半教師付き学習フレームワークを提案する。
単純な設計とトレーニングのテクニックのセットは、半教師付きセマンティックセグメンテーションの性能を大幅に向上させることができる。
本手法は,Cityscapes と Pascal VOC データセットの半教師付き設定において,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2021-04-15T06:01:39Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。