論文の概要: Fine- and Coarse-Granularity Hybrid Self-Attention for Efficient BERT
- arxiv url: http://arxiv.org/abs/2203.09055v1
- Date: Thu, 17 Mar 2022 03:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 04:37:05.754471
- Title: Fine- and Coarse-Granularity Hybrid Self-Attention for Efficient BERT
- Title(参考訳): 高効率BERTのための微粒・粗粒ハイブリッドセルフアテンション
- Authors: Jing Zhao, Yifan Wang, Junwei Bao, Youzheng Wu, Xiaodong He
- Abstract要約: 本稿では, 計算列長を漸進的に短縮することにより, コストを低減できる, 微細で粗い粒度ハイブリッド型自己アテンションを提案する。
FCAは従来の手法に比べて精度とFLOPのトレードオフが著しく優れていることを示す。
- 参考スコア(独自算出の注目度): 22.904252855587348
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformer-based pre-trained models, such as BERT, have shown extraordinary
success in achieving state-of-the-art results in many natural language
processing applications. However, deploying these models can be prohibitively
costly, as the standard self-attention mechanism of the Transformer suffers
from quadratic computational cost in the input sequence length. To confront
this, we propose FCA, a fine- and coarse-granularity hybrid self-attention that
reduces the computation cost through progressively shortening the computational
sequence length in self-attention. Specifically, FCA conducts an
attention-based scoring strategy to determine the informativeness of tokens at
each layer. Then, the informative tokens serve as the fine-granularity
computing units in self-attention and the uninformative tokens are replaced
with one or several clusters as the coarse-granularity computing units in
self-attention. Experiments on GLUE and RACE datasets show that BERT with FCA
achieves 2x reduction in FLOPs over original BERT with <1% loss in accuracy. We
show that FCA offers a significantly better trade-off between accuracy and
FLOPs compared to prior methods.
- Abstract(参考訳): BERTのようなトランスフォーマーベースの事前学習モデルは、多くの自然言語処理アプリケーションにおいて最先端の結果を達成するのに驚くべき成功を収めている。
しかし、トランスフォーマーの標準自己着脱機構は入力シーケンス長の2次計算コストに苦しむため、これらのモデルのデプロイは禁止的にコストがかかる。
そこで本研究では, 計算列長を漸進的に短縮することにより, 計算コストを低減し, 微粒かつ粗粒のハイブリッド自己アテンションであるFCAを提案する。
具体的には、fcaは各層におけるトークンのインフォメーション性を決定するために注意に基づくスコアリング戦略を行う。
そして、情報トークンを自己着脱時の微細粒度演算単位とし、自己着脱時の粗粒度演算単位として、非形成トークンを1つ又は複数のクラスタに置き換える。
GLUE と RACE データセットの実験により、FCA を用いた BERT は元の BERT よりも 2 倍の FLOP 削減を実現し、精度は 1% 低下した。
FCAは従来の手法に比べて精度とFLOPのトレードオフが著しく優れていることを示す。
関連論文リスト
- Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification [6.660834045805309]
BERTのような事前訓練されたトランスフォーマーは計算コストのかかる自己保持機構に悩まされる。
トークンプルーニングとトークンの組み合わせという2つの戦略を統合することを提案する。
さまざまなデータセットによる実験は、ベースラインモデルよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-03T12:51:52Z) - TPC-ViT: Token Propagation Controller for Efficient Vision Transformer [6.341420717393898]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにおいて有望な結果を得た。
この課題に対処するために、段階的なトークン削減を採用する以前のアプローチでは、ひとつのレイヤにおけるトークンの冗長性は、以下のすべてのレイヤにおける冗長性を意味すると仮定されている。
本稿では、2つの異なるトークン分布を組み込んだ新しいトークン伝搬制御器(TPC)を提案する。
論文 参考訳(メタデータ) (2024-01-03T00:10:33Z) - DPBERT: Efficient Inference for BERT based on Dynamic Planning [11.680840266488884]
既存の入力適応推論手法ではBERTの構造を十分に活用できない。
本稿では,BERTの推論過程を高速化する新しい微調整戦略であるBERTにおける動的計画法を提案する。
提案手法は,98%の精度を維持しながら遅延を75%まで低減し,最先端の入力適応方式に比べて高精度なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-07-26T07:18:50Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Constraint-aware and Ranking-distilled Token Pruning for Efficient
Transformer Inference [18.308180927492643]
ToPは、未精製モデルの最終層から初期精製モデルまで有効なトークンランキングを蒸留する、希釈型トークン蒸留技術である。
ToPは、GLUE上での競合精度を達成しつつ、BERTの平均FLOPを8.1倍削減し、Intel CPU上では7.4倍の遅延速度を提供する。
論文 参考訳(メタデータ) (2023-06-26T03:06:57Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。