論文の概要: Demystifying BERT: Implications for Accelerator Design
- arxiv url: http://arxiv.org/abs/2104.08335v1
- Date: Wed, 14 Apr 2021 01:06:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 19:44:42.825565
- Title: Demystifying BERT: Implications for Accelerator Design
- Title(参考訳): Demystifying BERT: アクセラレータ設計における意味
- Authors: Suchita Pati, Shaizeen Aga, Nuwan Jayasena, Matthew D. Sinclair
- Abstract要約: 私たちは、最も人気のあるNLP転送学習アルゴリズムの1つであるBERTに焦点を当て、アルゴリズムの振る舞いが将来のアクセラレータ設計を導く方法を特定します。
計算集約型BERT計算を特徴づけ、これらの計算をさらに最適化するためのソフトウェアと可能なハードウェアメカニズムについて議論します。
本分析では,BERT系モデルに対するシステム最適化のための全体解を同定する。
- 参考スコア(独自算出の注目度): 4.80595971865854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning in natural language processing (NLP), as realized using
models like BERT (Bi-directional Encoder Representation from Transformer), has
significantly improved language representation with models that can tackle
challenging language problems. Consequently, these applications are driving the
requirements of future systems. Thus, we focus on BERT, one of the most popular
NLP transfer learning algorithms, to identify how its algorithmic behavior can
guide future accelerator design. To this end, we carefully profile BERT
training and identify key algorithmic behaviors which are worthy of attention
in accelerator design.
We observe that while computations which manifest as matrix multiplication
dominate BERT's overall runtime, as in many convolutional neural networks,
memory-intensive computations also feature prominently. We characterize these
computations, which have received little attention so far. Further, we also
identify heterogeneity in compute-intensive BERT computations and discuss
software and possible hardware mechanisms to further optimize these
computations. Finally, we discuss implications of these behaviors as networks
get larger and use distributed training environments, and how techniques such
as micro-batching and mixed-precision training scale. Overall, our analysis
identifies holistic solutions to optimize systems for BERT-like models.
- Abstract(参考訳): BERT (Bi-directional Encoder Representation from Transformer) のようなモデルを用いて実現された自然言語処理(NLP)における伝達学習は、言語問題に対処可能なモデルで言語表現を大幅に改善した。
その結果、これらのアプリケーションは将来のシステムの要件を推し進めている。
そこで我々は,最も人気のあるNLP転送学習アルゴリズムであるBERTに着目し,そのアルゴリズム的振る舞いが将来の加速器設計をどのように導くかを明らかにする。
この目的のために,bertトレーニングを注意深くプロファイリングし,アクセラレーション設計において注目に値する重要なアルゴリズム行動を特定する。
多くの畳み込みニューラルネットワークと同様に、行列の乗算として表される計算がbertのランタイム全体を支配する一方で、メモリ集約計算も顕著である。
これまでにほとんど注目されていないこれらの計算を特徴付ける。
さらに,計算集約BERT計算における不均一性を同定し,これらの計算をさらに最適化するためのソフトウェアとハードウェア機構について議論する。
最後に,ネットワークの大規模化と分散トレーニング環境の利用,マイクロバッチや混合精度トレーニングスケールといった手法の活用について論じる。
本分析では,BERT系モデルのシステム最適化のための全体解を同定する。
関連論文リスト
- BiDense: Binarization for Dense Prediction [62.70804353158387]
BiDenseは、効率よく正確な密度予測タスクのために設計された一般化されたバイナリニューラルネットワーク(BNN)である。
BiDenseは2つの重要なテクニックを取り入れている: 分散適応バイナリー (DAB) とチャネル適応完全精度バイパス (CFB) である。
論文 参考訳(メタデータ) (2024-11-15T16:46:04Z) - Dynamic Range Reduction via Branch-and-Bound [1.533133219129073]
ハードウェアアクセラレーターを強化するための主要な戦略は、算術演算における精度の低下である。
本稿ではQUBO問題における精度向上のための完全原理分岐境界アルゴリズムを提案する。
実験は、実際の量子アニール上でのアルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-17T03:07:56Z) - BOLD: Boolean Logic Deep Learning [1.4272256806865107]
本稿では、ブール重みと入力からなるニューロンを、降下勾配や実算術の代わりにブール論理を用いてブール領域で効率的に訓練できるようなブール変動の概念を導入する。
提案手法は,ImageNet分類におけるベースライン完全精度を実現し,セマンティックセグメンテーションの最先端結果を上回った。
トレーニングと推論の双方において、エネルギー消費を著しく減少させる。
論文 参考訳(メタデータ) (2024-05-25T19:50:23Z) - Reinforced In-Context Black-Box Optimization [64.25546325063272]
RIBBOは、オフラインデータからエンドツーエンドでBBOアルゴリズムを強化学習する手法である。
RIBBOは、複数の動作アルゴリズムとタスクによって生成される最適化履歴を学習するために、表現的なシーケンスモデルを使用している。
提案手法の中心となるのは,テキストレグレット・ツー・ゴートークンによる最適化履歴の増大である。
論文 参考訳(メタデータ) (2024-02-27T11:32:14Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Bioinspired Cortex-based Fast Codebook Generation [0.09449650062296822]
脳内の知覚皮質ネットワークにインスパイアされた特徴抽出法を提案する。
バイオインスパイアされた大脳皮質と呼ばれるこのアルゴリズムは、より優れた計算効率を持つストリーミング信号の特徴に収束する。
ここでは、クラスタリングおよびベクトル量子化における大脳皮質モデルの優れた性能を示す。
論文 参考訳(メタデータ) (2022-01-28T18:37:43Z) - A text autoencoder from transformer for fast encoding language
representation [0.0]
本稿では,注目層におけるウィンドウマスキング機構を用いた双方向言語モデルを提案する。
この研究は、BERTのようにランダムマスキングなしで文脈言語表現を計算する。
提案手法は, O($n2$) の他の変圧器モデルと比較して O(n) の複雑性が低いことを示す。
論文 参考訳(メタデータ) (2021-11-04T13:09:10Z) - Towards Structured Dynamic Sparse Pre-Training of BERT [4.567122178196833]
BERT言語モデリングタスクのための、単純で動的で、常にスパースな事前学習手法を開発し、研究する。
粗い粒度のブロック間隔を使用する場合、トレーニングはFLOP効率を保ち、現代のハードウェアアクセラレーター上での効率的な実行を特に有望であることを示す。
論文 参考訳(メタデータ) (2021-08-13T14:54:26Z) - Spiking Neural Networks Hardware Implementations and Challenges: a
Survey [53.429871539789445]
スパイキングニューラルネットワークは、ニューロンとシナプスの操作原理を模倣する認知アルゴリズムである。
スパイキングニューラルネットワークのハードウェア実装の現状について述べる。
本稿では,これらのイベント駆動アルゴリズムの特性をハードウェアレベルで活用するための戦略について論じる。
論文 参考訳(メタデータ) (2020-05-04T13:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。