論文の概要: Packing: Towards 2x NLP BERT Acceleration
- arxiv url: http://arxiv.org/abs/2107.02027v1
- Date: Tue, 29 Jun 2021 04:37:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-11 12:18:29.069784
- Title: Packing: Towards 2x NLP BERT Acceleration
- Title(参考訳): Packing: 2倍のNLPBERT高速化を目指す
- Authors: Matej Kosec and Sheng Fu and Mario Michael Krell
- Abstract要約: シーケンス長512のパディングトークンは,BERT (Bidirectional Representations from Transformers) の事前トレーニングに使用されるウィキペディアデータセットの50%以上を表現していることがわかった。
すべてのパディングを削除することで、シーケンス/秒の2倍のスピードアップを実現します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We find that at sequence length 512 padding tokens represent in excess of 50%
of the Wikipedia dataset used for pretraining BERT (Bidirectional Encoder
Representations from Transformers). Therefore by removing all padding we
achieve a 2x speed-up in terms of sequences/sec. To exploit this characteristic
of the dataset, we develop and contrast two deterministic packing algorithms.
Both algorithms rely on the assumption that sequences are interchangeable and
therefore packing can be performed on the histogram of sequence lengths, rather
than per sample. This transformation of the problem leads to algorithms which
are fast and have linear complexity in dataset size. The shortest-pack-first
histogram-packing (SPFHP) algorithm determines the packing order for the
Wikipedia dataset of over 16M sequences in 0.02 seconds. The non-negative
least-squares histogram-packing (NNLSHP) algorithm converges in 28.4 seconds
but produces solutions which are more depth efficient, managing to get near
optimal packing by combining a maximum of 3 sequences in one sample. Using the
dataset with multiple sequences per sample requires additional masking in the
attention layer and a modification of the MLM loss function. We demonstrate
that both of these changes are straightforward to implement and have relatively
little impact on the achievable performance gain on modern hardware. Finally,
we pretrain BERT-Large using the packed dataset, demonstrating no loss of
convergence and the desired 2x speed-up.
- Abstract(参考訳): シーケンス長512のパディングトークンは,BERT (Bidirectional Encoder Representations from Transformers) の事前トレーニングに使用されるウィキペディアデータセットの50%以上を占める。
したがって、すべてのパディングを取り除くことで、シーケンス/秒の2倍のスピードアップを達成する。
この特徴を活用すべく,2つの決定論的パッキングアルゴリズムを開発し,対比する。
どちらのアルゴリズムも、配列が交換可能であるという仮定に依存しており、配列の長さのヒストグラム上でパッキングを行うことができる。
この問題の変換は、高速で、データセットサイズが線形に複雑になるアルゴリズムにつながる。
最短パックファーストヒストグラムパッキング (SPFHP) アルゴリズムは、ウィキペディアのデータセットを0.02秒で16M以上のシーケンスでパッキングする順序を決定する。
非負の最小二乗ヒストグラムパッキング(NNLSHP)アルゴリズムは28.4秒で収束するが、より深度の高い解を生成し、最大3つの配列を1つのサンプルに組み合わせて最適パッキングに近づいた。
サンプル毎に複数のシーケンスを持つデータセットを使用するには、注意層にマスクを追加し、MLM損失関数を変更する必要がある。
これらの変更はいずれも実装が簡単で、現代のハードウェアにおける達成可能なパフォーマンス向上にはほとんど影響しない。
最後に、満載データセットを用いてBERT-Largeを事前訓練し、収束の損失と所望の2倍のスピードアップを示す。
関連論文リスト
- STAT: Shrinking Transformers After Training [72.0726371426711]
微調整なしで変圧器モデルを作成するための簡単なアルゴリズムSTATを提案する。
STATは、次の層の重みを補正して精度を保ちながら、注意頭とニューロンの両方をネットワークから排除する。
われわれのアルゴリズムは、BERTを圧縮するのに数分を要し、単一のGPUを用いて7Bパラメータを持つモデルを圧縮するのに3時間もかからない。
論文 参考訳(メタデータ) (2024-05-29T22:59:11Z) - Replicable Learning of Large-Margin Halfspaces [46.91303295440005]
我々は,大マージンハーフスペースを学習する問題に対して,効率的なアルゴリズムを提供する。
Impagliazzo, Lei, Pitassi, Sorrellによるアルゴリズム [STOC 2022] の改良を行った。
論文 参考訳(メタデータ) (2024-02-21T15:06:51Z) - Quick Adaptive Ternary Segmentation: An Efficient Decoding Procedure For
Hidden Markov Models [70.26374282390401]
ノイズの多い観測から元の信号(すなわち隠れ鎖)を復号することは、ほぼすべてのHMMに基づくデータ分析の主要な目標の1つである。
本稿では,多対数計算複雑性において隠れた列を復号化するための分法であるQuick Adaptive Ternary(QATS)を提案する。
論文 参考訳(メタデータ) (2023-05-29T19:37:48Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - Discrete Morse Sandwich: Fast Computation of Persistence Diagrams for
Scalar Data -- An Algorithm and A Benchmark [8.648433479399857]
本稿では,d-次元単純複素数 K 上で定義される入力片方向線形スカラー場 f を与えられた永続図計算の効率的なアルゴリズムを提案する。
我々はこのアルゴリズムを離散モース理論の設定内で表現し、考慮すべき入力単純さの数を著しく削減する。
また、この問題に対して「サンドウィッチ」と呼ばれる階層化アプローチを導入する。
論文 参考訳(メタデータ) (2022-06-27T10:54:24Z) - Nonparametric Extrema Analysis in Time Series for Envelope Extraction,
Peak Detection and Clustering [0.0]
本研究では,エンベロープ抽出,ピークバースト検出,時系列クラスタリングに利用できる非パラメトリック手法を提案する。
我々の問題定式化は、自然に定義された時系列の分割/フォークをもたらす。
論文 参考訳(メタデータ) (2021-09-05T14:21:24Z) - Fair and Representative Subset Selection from Data Streams [4.53279507109072]
ストリーム内のデータ項目が複数の不随意群に属する設定について検討する。
ストリーミングサブモジュラー問題の公平性を考慮した変種に対する効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-09T07:49:13Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - A Study of Performance of Optimal Transport [16.847501106437534]
本稿では,ネットワークの単純化と拡張パスに基づくアルゴリズムが,数値行列スケーリング法より一貫して優れていることを示す。
古典的なKuhn-Munkresアルゴリズムを改良した新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T20:37:05Z) - Non-Adaptive Adaptive Sampling on Turnstile Streams [57.619901304728366]
カラムサブセット選択、部分空間近似、射影クラスタリング、および空間サブリニアを$n$で使用するターンタイルストリームのボリュームに対する最初の相対エラーアルゴリズムを提供する。
我々の適応的なサンプリング手法は、様々なデータ要約問題に多くの応用をもたらしており、これは最先端を改善するか、より緩和された行列列モデルで以前に研究されただけである。
論文 参考訳(メタデータ) (2020-04-23T05:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。