論文の概要: Exploring Attention Map Reuse for Efficient Transformer Neural Networks
- arxiv url: http://arxiv.org/abs/2301.12444v1
- Date: Sun, 29 Jan 2023 13:38:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 17:06:42.181505
- Title: Exploring Attention Map Reuse for Efficient Transformer Neural Networks
- Title(参考訳): 効率的な変圧器ニューラルネットワークのための注意マップ検索
- Authors: Kyuhong Shim, Jungwook Choi, Wonyong Sung
- Abstract要約: トランスフォーマーベースのディープニューラルネットワークは、様々なシーケンスアプリケーションで大きな成功を収めている。
キーモジュールは自己アテンション(SA)であり、位置間の距離に関係なく、シーケンス全体から特徴を抽出する。
近年,複数のSA層をグループ化して1つのアテンションマップを共有するアテンションマップの再利用が提案され,音声認識モデルの大幅な高速化を実現している。
- 参考スコア(独自算出の注目度): 18.335207404178547
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer-based deep neural networks have achieved great success in various
sequence applications due to their powerful ability to model long-range
dependency. The key module of Transformer is self-attention (SA) which extracts
features from the entire sequence regardless of the distance between positions.
Although SA helps Transformer performs particularly well on long-range tasks,
SA requires quadratic computation and memory complexity with the input sequence
length. Recently, attention map reuse, which groups multiple SA layers to share
one attention map, has been proposed and achieved significant speedup for
speech recognition models. In this paper, we provide a comprehensive study on
attention map reuse focusing on its ability to accelerate inference. We compare
the method with other SA compression techniques and conduct a breakdown
analysis of its advantages for a long sequence. We demonstrate the
effectiveness of attention map reuse by measuring the latency on both CPU and
GPU platforms.
- Abstract(参考訳): トランスベースのディープニューラルネットワークは、長距離依存性をモデル化する能力が優れているため、さまざまなシーケンスアプリケーションで大きな成功を収めています。
Transformerのキーモジュールは自己アテンション(SA)であり、位置間の距離に関わらず、シーケンス全体から特徴を抽出する。
SAはTransformerを特に長距離タスクでうまく動作させるが、SAは入力シーケンス長の2次計算とメモリの複雑さを必要とする。
近年,複数のsa層をグループ化して一つのアテンションマップを共有するアテンションマップの再利用が提案され,音声認識モデルの高速化が実現されている。
本稿では,推論を加速する能力に着目したアテンションマップの再利用に関する総合的研究を行う。
本手法を他のSA圧縮手法と比較し,その長周期に対する利点の分解分析を行う。
本稿では,CPUおよびGPUプラットフォーム上での遅延測定によるアテンションマップの再利用の有効性を示す。
関連論文リスト
- SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration [22.551095978580147]
本稿では,注目のための高効率かつ高精度な量子化手法であるSageAttentionを提案する。
このアプローチでは、さまざまなモデルにわたるエンドツーエンドのメトリクス損失はほとんどありません。
論文 参考訳(メタデータ) (2024-10-03T10:25:23Z) - CARD: Channel Aligned Robust Blend Transformer for Time Series
Forecasting [50.23240107430597]
本稿では,CARD(Channel Aligned Robust Blend Transformer)という特殊なトランスを設計する。
まず、CARDはチャネルに沿ったアテンション構造を導入し、信号間の時間的相関をキャプチャする。
第二に、マルチスケール知識を効率的に活用するために、異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。
第3に,潜在的な過度な問題を軽減するため,時系列予測のためのロバストな損失関数を導入する。
論文 参考訳(メタデータ) (2023-05-20T05:16:31Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for
Long Sequences [16.066338004414092]
textitDiffuserはシーケンシャル・ツー・シーケンス・モデリングのための新しい効率的なトランスフォーマーである。
低い計算とメモリコストを維持しながら、すべてのトークンインタラクションを1つの注意層に組み込む。
スペクトルの観点からグラフ展開特性を解析することにより、全アテンションを近似する能力を示す。
論文 参考訳(メタデータ) (2022-10-21T08:13:34Z) - SALO: An Efficient Spatial Accelerator Enabling Hybrid Sparse Attention
Mechanisms for Long Sequences [16.332650428422443]
長いシーケンスに対するハイブリッドスパースアテンション機構を実現するためのSALOを提案する。
SALOには、ハイブリッドスパース注意パターンをハードウェアにマッピングするデータスケジューラと、空間加速器が含まれている。
我々は,SALOがGPUやCPUの実装と比較して平均17.66倍,89.33倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2022-06-29T12:01:19Z) - Efficient Long-Range Attention Network for Image Super-resolution [25.51377161557467]
画像超解像(SR)のための効率的な長距離アテンションネットワーク(ELAN)を提案する。
まず、シフト畳み込み(シフト畳み込み)を用い、1x1畳み込みと同じ複雑さを維持しながら、画像局所構造情報を効果的に抽出する。
その後、GMSAモジュールで2つのシフトコンブをカスケードするだけで、高効率なロングレンジアテンションブロック(ELAB)が構築される。
論文 参考訳(メタデータ) (2022-03-13T16:17:48Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - SA-Net: Shuffle Attention for Deep Convolutional Neural Networks [0.0]
この問題に対処するために,効率的なShuffle Attention (SA) モジュールを提案する。
例えば、バックボーンのResNet50に対するSAのパラメータと計算は、それぞれ300対25.56Mと2.76e-3 GFLOPs対4.12 GFLOPである。
論文 参考訳(メタデータ) (2021-01-30T15:23:17Z) - SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive
Connection [51.376723069962]
本稿では,スパース適応接続(Sparse Adaptive Connection)を提案する。
SACでは、入力シーケンスをグラフとみなし、リンクノード間のアテンション操作を行う。
我々は,SACが最先端モデルと競合する一方で,メモリコストを大幅に削減することを示した。
論文 参考訳(メタデータ) (2020-03-22T07:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。