論文の概要: Accelerating Attention through Gradient-Based Learned Runtime Pruning
- arxiv url: http://arxiv.org/abs/2204.03227v2
- Date: Fri, 8 Apr 2022 15:41:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 00:25:48.679453
- Title: Accelerating Attention through Gradient-Based Learned Runtime Pruning
- Title(参考訳): 勾配に基づく学習ランタイムpruningによる注意の促進
- Authors: Zheng Li and Soroush Ghodrati and Amir Yazdanbakhsh and Hadi
Esmaeilzadeh and Mingu Kang
- Abstract要約: 自己認識は、トランスフォーマーベースの自然言語処理モデルにおいて、最先端の精度を実現する重要な手段である。
本稿では、学習の損失関数に組み込まれたソフトな微分可能正規化器による探索を定式化する。
我々は、ビットレベルの早期終了マイクロアーキテクチャ機構を持つトランスフォーマー言語モデルに対して、LeOPArdと呼ばれるビットシリアルアーキテクチャを考案した。
- 参考スコア(独自算出の注目度): 9.109136535767478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention is a key enabler of state-of-art accuracy for various
transformer-based Natural Language Processing models. This attention mechanism
calculates a correlation score for each word with respect to the other words in
a sentence. Commonly, only a small subset of words highly correlates with the
word under attention, which is only determined at runtime. As such, a
significant amount of computation is inconsequential due to low attention
scores and can potentially be pruned. The main challenge is finding the
threshold for the scores below which subsequent computation will be
inconsequential. Although such a threshold is discrete, this paper formulates
its search through a soft differentiable regularizer integrated into the loss
function of the training. This formulation piggy backs on the back-propagation
training to analytically co-optimize the threshold and the weights
simultaneously, striking a formally optimal balance between accuracy and
computation pruning. To best utilize this mathematical innovation, we devise a
bit-serial architecture, dubbed LeOPArd, for transformer language models with
bit-level early termination microarchitectural mechanism. We evaluate our
design across 43 back-end tasks for MemN2N, BERT, ALBERT, GPT-2, and Vision
transformer models. Post-layout results show that, on average, LeOPArd yields
1.9x and 3.9x speedup and energy reduction, respectively, while keeping the
average accuracy virtually intact (<0.2% degradation)
- Abstract(参考訳): 自己アテンションは、様々なトランスフォーマーベースの自然言語処理モデルにおいて、最先端の精度を実現する鍵となる。
この注意機構は、文中の他の単語に対する各単語の相関スコアを算出する。
一般的に、少数の単語のサブセットだけが、実行時にのみ決定される単語に非常に関連している。
したがって、注目度が低いためかなりの量の計算は不必要であり、刈り取ることができる。
主な課題は、以下のスコアのしきい値を見つけることである。
このような閾値は離散的であるが、本論文は訓練の損失関数に統合されたソフトな微分可能正則化器による探索を定式化する。
この定式化されたピギーは、閾値と重みを同時に分析的に最適化するバックプロパゲーショントレーニングにバックバックし、精度と計算プラニングの正式な最適バランスを与える。
この数学的革新を最大限活用するために、ビットレベルの初期終端マイクロアーキテクチャ機構を持つトランスフォーマー言語モデルにleopardと呼ばれるビットシリアルアーキテクチャを考案する。
我々は,MemN2N,BERT,ALBERT,GPT-2,Visionトランスモデルの43のバックエンドタスクを対象とした設計評価を行った。
ポストレイアウトの結果、LeOPArdは平均で1.9倍のスピードアップと3.9倍のエネルギー削減を達成し、平均精度をほぼ無傷で維持する(0.2%劣化)。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Sparse Binary Transformers for Multivariate Time Series Modeling [1.3965477771846404]
軽量圧縮ニューラルネットワークは,高密度浮動小数点変換器に匹敵する精度が得られることを示す。
本モデルは,3つの時系列学習課題 – 分類,異常検出,単段階予測 – で良好な結果が得られる。
本稿では,パラメータ数,ビットサイズ,浮動小数点演算(FLOP)数など,さまざまな指標に対するアプローチの計算的節約度を測定した。
論文 参考訳(メタデータ) (2023-08-09T00:23:04Z) - Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation [89.88214896713846]
STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮に入れている。
市販のビデオトランスフォーマーとビデオウィンにSTAモジュールを適用する。
結果: Kinetics-400 と something-Something V2 は 30% のオーバーシェルフ削減を実現し,0.2% の精度低下を実現した。
論文 参考訳(メタデータ) (2023-08-08T19:38:15Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - End-to-end symbolic regression with transformers [20.172752966322214]
シンボリック・マグニチュード・レグレッションは、通常、2段階の手順を高速に予測する難しいタスクである。
本稿では,本モデルが情報変換器としてニューラル・ザ・定数にアプローチしていることを示す。
論文 参考訳(メタデータ) (2022-04-22T06:55:43Z) - Scatterbrain: Unifying Sparse and Low-rank Attention Approximation [25.375024028636663]
そこで我々はScatterbrainを提案する。Scatterbrainは(局所性に敏感なハッシュによる)スパースと(カーネル特徴マップによる)低ランクの注意を正確な近似のために統一する新しい方法である。
Scatterbrain は BigGAN 画像生成と 事前訓練した T2T-ViT のドロップイン置換において, ベースラインの2.1倍の誤差を達成できることを実証的に示す。
Scatterbrain for end-to-end training with up 4 points better perplexity and 5 points better average accuracy than sparse or low-rank efficient transformer on language modeling and long-range-arena task。
論文 参考訳(メタデータ) (2021-10-28T17:52:17Z) - On the Distribution, Sparsity, and Inference-time Quantization of
Attention Values in Transformers [13.401707395755746]
NLPタスクに必要な典型的な注意値の全範囲について検討する。
注意値の80%近くは、最小限(1.0%$)の精度でゼロにプルーニングできる。
我々は,このプルーニング手法と組み合わせて,注意値を3ビット形式に定量化することで,微調整されたRoBERTaによる質問応答の精度を0.8%低下させることができた。
論文 参考訳(メタデータ) (2021-06-02T17:45:47Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z) - Iterative Refinement in the Continuous Space for Non-Autoregressive
Neural Machine Translation [68.25872110275542]
非自己回帰型機械翻訳のための効率的な推論手法を提案する。
反復的に連続空間で純粋に翻訳を洗練させる。
We evaluate our approach on WMT'14 En-De, WMT'16 Ro-En and IWSLT'16 De-En。
論文 参考訳(メタデータ) (2020-09-15T15:30:14Z) - Predictive Coding Approximates Backprop along Arbitrary Computation
Graphs [68.8204255655161]
我々は、コア機械学習アーキテクチャを予測的符号化に翻訳する戦略を開発する。
私たちのモデルは、挑戦的な機械学習ベンチマークのバックプロップと同等に機能します。
本手法は,ニューラルネットワークに標準機械学習アルゴリズムを直接実装できる可能性を高める。
論文 参考訳(メタデータ) (2020-06-07T15:35:47Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。