論文の概要: LATTE: Low-Precision Approximate Attention with Head-wise Trainable Threshold for Efficient Transformer
- arxiv url: http://arxiv.org/abs/2404.07519v1
- Date: Thu, 11 Apr 2024 07:23:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 14:49:00.575442
- Title: LATTE: Low-Precision Approximate Attention with Head-wise Trainable Threshold for Efficient Transformer
- Title(参考訳): LATTE:高効率変圧器用ヘッドワイドトレーニング用閾値付き低精度近似アテンション
- Authors: Jiing-Ping Wang, Ming-Guang Lin, An-Yeu, Wu,
- Abstract要約: 我々は,高効率変圧器(LATTE)のための頭部訓練用閾値を用いた高精度近似注意法を提案する。
LATTEは、MHA(Multi-Head Attention)の計算量を削減するために、低精度ドット積を持つ頭部しきい値に基づくフィルタを用いる。
実験の結果, LATTE は NLP と CV の両方のタスクにスムーズに適応でき, 計算コストを大幅に削減できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of Transformer models in NLP and CV domain, Multi-Head Attention has been proven to be a game-changer. However, its expensive computation poses challenges to the model throughput and efficiency, especially for the long sequence tasks. Exploiting the sparsity in attention has been proven to be an effective way to reduce computation. Nevertheless, prior works do not consider the various distributions among different heads and lack a systematic method to determine the threshold. To address these challenges, we propose Low-Precision Approximate Attention with Head-wise Trainable Threshold for Efficient Transformer (LATTE). LATTE employs a headwise threshold-based filter with the low-precision dot product and computation reuse mechanism to reduce the computation of MHA. Moreover, the trainable threshold is introduced to provide a systematic method for adjusting the thresholds and enable end-to-end optimization. Experimental results indicate LATTE can smoothly adapt to both NLP and CV tasks, offering significant computation savings with only a minor compromise in performance. Also, the trainable threshold is shown to be essential for the leverage between the performance and the computation. As a result, LATTE filters up to 85.16% keys with only a 0.87% accuracy drop in the CV task and 89.91% keys with a 0.86 perplexity increase in the NLP task.
- Abstract(参考訳): NLPとCVドメインにおけるトランスフォーマーモデルの増加に伴い、マルチヘッドアテンションはゲームチェンジャーであることが証明されている。
しかし、その高価な計算は、特に長いシーケンスタスクにおいて、モデルのスループットと効率に課題をもたらす。
注意深度を爆発させることは、計算量を削減する効果的な方法であることが証明されている。
それにもかかわらず、先行研究では異なる頭部の様々な分布を考慮せず、しきい値を決定する体系的な方法が欠如している。
これらの課題に対処するために,高効率変圧器(LATTE)のための頭部訓練用閾値を用いた低精度近似注意法を提案する。
LATTEは、MHAの計算量を削減するために、低精度のドット積と計算再利用機構を備えたヘッドワイズしきい値ベースのフィルタを用いる。
さらに、トレーニング可能なしきい値を導入し、しきい値を調整するための体系的な方法を提供し、エンドツーエンドの最適化を可能にする。
LATTE は NLP タスクと CV タスクの両方にスムーズに適応できることを示す実験結果が得られた。
また、トレーニング可能なしきい値は、性能と計算のレバレッジに不可欠であることが示されている。
その結果、LATTEは最大85.16%のキーをフィルタリングし、CVタスクでは0.87%の精度低下と89.91%のキーをフィルタし、NLPタスクでは0.86のパープレキシティが増大した。
関連論文リスト
- Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank
Compression Strategy [5.699098817569033]
本稿では,ViTのパラメータ数を削減するために,異なる層の低ランクテンソル近似を用いたアクティベーション対応モデル圧縮手法を提案する。
提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減する。
これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
論文 参考訳(メタデータ) (2024-02-08T19:01:14Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Constraint-aware and Ranking-distilled Token Pruning for Efficient
Transformer Inference [18.308180927492643]
ToPは、未精製モデルの最終層から初期精製モデルまで有効なトークンランキングを蒸留する、希釈型トークン蒸留技術である。
ToPは、GLUE上での競合精度を達成しつつ、BERTの平均FLOPを8.1倍削減し、Intel CPU上では7.4倍の遅延速度を提供する。
論文 参考訳(メタデータ) (2023-06-26T03:06:57Z) - QuaLA-MiniLM: a Quantized Length Adaptive MiniLM [5.36703735486629]
限られた計算予算は、トランスフォーマーを生産に使用せず、高い精度で使用することを防ぐことが多い。
知識蒸留法では、BERTを自己蒸留して、より少ない層と少ない内部埋め込みを持つより小さな変換器表現に変換することにより、計算効率に対処する。
Dynamic-TinyBERTは、Longth Adaptive Transformer (LAT) 技術をTinyBERTに部分的に実装し、最小限の精度でBERTベース上でx3スピードアップする。
我々は,LAT法と併用してMiniLM蒸留を行い,低ビット量子化を適用して効率をさらに高めている。
論文 参考訳(メタデータ) (2022-10-31T07:42:52Z) - Effective Pre-Training Objectives for Transformer-based Autoencoders [97.99741848756302]
トランスフォーマーエンコーダの効率,コスト,精度のトレードオフについて検討する。
共通の目的の機能を組み合わせて、新しい効果的な事前学習アプローチを作成します。
論文 参考訳(メタデータ) (2022-10-24T18:39:44Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Identifying Suitable Tasks for Inductive Transfer Through the Analysis
of Feature Attributions [78.55044112903148]
我々は、単一タスクモデル間のニューラルネットワークアクティベーションの比較を通じて、タスクペアが相補的になるかどうかを予測するために、説明可能性技術を使用する。
提案手法により,TREC-IS 2020-Aデータセットでは,正のクラスF1の0.034の削減に留まらず,最大83.5%のトレーニング時間を短縮することが可能である。
論文 参考訳(メタデータ) (2022-02-02T15:51:07Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。