論文の概要: EcoFormer: Energy-Saving Attention with Linear Complexity
- arxiv url: http://arxiv.org/abs/2209.09004v1
- Date: Mon, 19 Sep 2022 13:28:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 15:40:49.393222
- Title: EcoFormer: Energy-Saving Attention with Linear Complexity
- Title(参考訳): EcoFormer: 線形複雑度を考慮した省エネ
- Authors: Jing Liu, Zizheng Pan, Haoyu He, Jianfei Cai, Bohan Zhuang
- Abstract要約: Transformerはシーケンシャルデータをモデル化する変換フレームワークである。
本研究では,高次元ソフトマックスアテンションにカスタマイズした新しいバイナライゼーションパラダイムを提案する。
EcoFormerは、標準の注意を払って、一貫して同等のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 40.002608785252164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer is a transformative framework that models sequential data and has
achieved remarkable performance on a wide range of tasks, but with high
computational and energy cost. To improve its efficiency, a popular choice is
to compress the models via binarization which constrains the floating-point
values into binary ones to save resource consumption owing to cheap bitwise
operations significantly. However, existing binarization methods only aim at
minimizing the information loss for the input distribution statistically, while
ignoring the pairwise similarity modeling at the core of the attention
mechanism. To this end, we propose a new binarization paradigm customized to
high-dimensional softmax attention via kernelized hashing, called EcoFormer, to
map the original queries and keys into low-dimensional binary codes in Hamming
space. The kernelized hash functions are learned to match the ground-truth
similarity relations extracted from the attention map in a self-supervised way.
Based on the equivalence between the inner product of binary codes and the
Hamming distance as well as the associative property of matrix multiplication,
we can approximate the attention in linear complexity by expressing it as a
dot-product of binary codes. Moreover, the compact binary representations of
queries and keys enable us to replace most of the expensive multiply-accumulate
operations in attention with simple accumulations to save considerable on-chip
energy footprint on edge devices. Extensive experiments on both vision and
language tasks show that EcoFormer consistently achieves comparable performance
with standard attentions while consuming much fewer resources. For example,
based on PVTv2-B0 and ImageNet-1K, Ecoformer achieves a 73% energy footprint
reduction with only a 0.33% performance drop compared to the standard
attention. Code is available at https://github.com/ziplab/EcoFormer.
- Abstract(参考訳): Transformerはシーケンシャルなデータをモデル化するトランスフォーマーフレームワークで、幅広いタスクにおいて優れたパフォーマンスを実現しているが、計算量やエネルギーコストが高い。
効率を向上させるために、浮動小数点値をバイナリに制限するバイナリ化によってモデルを圧縮し、ビット単位の操作が大幅に安いためリソース消費を節約するのが一般的な選択である。
しかし,既存のバイナライゼーション手法は,アテンション機構のコアにおけるペアワイズ類似性モデルを無視しつつ,入力分布の情報損失を統計的に最小化することのみを目的としている。
そこで本研究では,ecoformer と呼ばれる分散ハッシュによる高次元ソフトマックス注目にカスタマイズされた新しい2値化パラダイムを提案し,クエリとキーをハミング空間内の低次元バイナリコードにマッピングする。
カーネル化されたハッシュ関数は、アテンションマップから抽出した地対真実の類似関係を自己監督的に一致させる。
二進符号の内積とハミング距離の同値性と行列の乗算の連想性に基づいて、二進符号のドット積として表現することで線形複雑性の注意を近似することができる。
さらに,クエリやキーのコンパクトなバイナリ表現によって,高コストなマルチプライアキューム操作のほとんどを,単純な蓄積に置き換えることで,エッジデバイスでのオンチップエネルギーフットプリントを大幅に削減できる。
ビジョンと言語タスクに関する大規模な実験は、EcoFormerが標準の注意で一貫して同等のパフォーマンスを実現し、リソースをはるかに少なく消費していることを示している。
例えば、PVTv2-B0とImageNet-1Kに基づいて、Ecoformerは73%のエネルギーフットプリント削減を実現している。
コードはhttps://github.com/ziplab/ecoformerで入手できる。
関連論文リスト
- White-Box Transformers via Sparse Rate Reduction: Compression Is All
There Is? [28.507148793856388]
数学的に完全に解釈可能なCRATEという,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。
実験によると、これらのネットワークは単純さにもかかわらず、大規模な実世界の画像とテキストデータセットの表現を圧縮し、分散化することを学習している。
論文 参考訳(メタデータ) (2023-11-22T02:23:32Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - BiFormer: Vision Transformer with Bi-Level Routing Attention [26.374724782056557]
本稿では,コンテンツ認識を伴う計算のより柔軟なアロケーションを実現するために,バイレベルルーティングによる新しい動的スパースアテンションを提案する。
具体的には、クエリにおいて、無関係なキー値対をまず粗い領域レベルでフィルタリングし、残った候補領域の結合にきめ細かなトークン対注意を適用する。
提案された双方向ルーティングアテンションによって構築され、BiFormerと呼ばれる新しい汎用ビジョントランスフォーマーが提示される。
論文 参考訳(メタデータ) (2023-03-15T17:58:46Z) - Graph-Collaborated Auto-Encoder Hashing for Multi-view Binary Clustering [11.082316688429641]
マルチビューバイナリクラスタリングのための自動エンコーダに基づくハッシュアルゴリズムを提案する。
具体的には,低ランク制約を用いた多視点親和性グラフ学習モデルを提案する。
また、複数の親和性グラフを協調して協調するエンコーダ・デコーダのパラダイムを設計し、統一されたバイナリコードを効果的に学習する。
論文 参考訳(メタデータ) (2023-01-06T12:43:13Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image
Segmentation [98.90623605283564]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Sparse Attention Acceleration with Synergistic In-Memory Pruning and
On-Chip Recomputation [6.303594714446706]
自己認識機構は、入力シーケンス全体にわたってペアワイズ相関を計測する。
良好な性能にもかかわらず、ペアワイズ相関を計算するのは非常にコストがかかる。
この研究は、注意点を近似的に計算するSPRINTと呼ばれるアクセラレーターを設計することで、これらの制約に対処する。
論文 参考訳(メタデータ) (2022-09-01T17:18:19Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。