論文の概要: EcoFormer: Energy-Saving Attention with Linear Complexity
- arxiv url: http://arxiv.org/abs/2209.09004v1
- Date: Mon, 19 Sep 2022 13:28:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 15:40:49.393222
- Title: EcoFormer: Energy-Saving Attention with Linear Complexity
- Title(参考訳): EcoFormer: 線形複雑度を考慮した省エネ
- Authors: Jing Liu, Zizheng Pan, Haoyu He, Jianfei Cai, Bohan Zhuang
- Abstract要約: Transformerはシーケンシャルデータをモデル化する変換フレームワークである。
本研究では,高次元ソフトマックスアテンションにカスタマイズした新しいバイナライゼーションパラダイムを提案する。
EcoFormerは、標準の注意を払って、一貫して同等のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 40.002608785252164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer is a transformative framework that models sequential data and has
achieved remarkable performance on a wide range of tasks, but with high
computational and energy cost. To improve its efficiency, a popular choice is
to compress the models via binarization which constrains the floating-point
values into binary ones to save resource consumption owing to cheap bitwise
operations significantly. However, existing binarization methods only aim at
minimizing the information loss for the input distribution statistically, while
ignoring the pairwise similarity modeling at the core of the attention
mechanism. To this end, we propose a new binarization paradigm customized to
high-dimensional softmax attention via kernelized hashing, called EcoFormer, to
map the original queries and keys into low-dimensional binary codes in Hamming
space. The kernelized hash functions are learned to match the ground-truth
similarity relations extracted from the attention map in a self-supervised way.
Based on the equivalence between the inner product of binary codes and the
Hamming distance as well as the associative property of matrix multiplication,
we can approximate the attention in linear complexity by expressing it as a
dot-product of binary codes. Moreover, the compact binary representations of
queries and keys enable us to replace most of the expensive multiply-accumulate
operations in attention with simple accumulations to save considerable on-chip
energy footprint on edge devices. Extensive experiments on both vision and
language tasks show that EcoFormer consistently achieves comparable performance
with standard attentions while consuming much fewer resources. For example,
based on PVTv2-B0 and ImageNet-1K, Ecoformer achieves a 73% energy footprint
reduction with only a 0.33% performance drop compared to the standard
attention. Code is available at https://github.com/ziplab/EcoFormer.
- Abstract(参考訳): Transformerはシーケンシャルなデータをモデル化するトランスフォーマーフレームワークで、幅広いタスクにおいて優れたパフォーマンスを実現しているが、計算量やエネルギーコストが高い。
効率を向上させるために、浮動小数点値をバイナリに制限するバイナリ化によってモデルを圧縮し、ビット単位の操作が大幅に安いためリソース消費を節約するのが一般的な選択である。
しかし,既存のバイナライゼーション手法は,アテンション機構のコアにおけるペアワイズ類似性モデルを無視しつつ,入力分布の情報損失を統計的に最小化することのみを目的としている。
そこで本研究では,ecoformer と呼ばれる分散ハッシュによる高次元ソフトマックス注目にカスタマイズされた新しい2値化パラダイムを提案し,クエリとキーをハミング空間内の低次元バイナリコードにマッピングする。
カーネル化されたハッシュ関数は、アテンションマップから抽出した地対真実の類似関係を自己監督的に一致させる。
二進符号の内積とハミング距離の同値性と行列の乗算の連想性に基づいて、二進符号のドット積として表現することで線形複雑性の注意を近似することができる。
さらに,クエリやキーのコンパクトなバイナリ表現によって,高コストなマルチプライアキューム操作のほとんどを,単純な蓄積に置き換えることで,エッジデバイスでのオンチップエネルギーフットプリントを大幅に削減できる。
ビジョンと言語タスクに関する大規模な実験は、EcoFormerが標準の注意で一貫して同等のパフォーマンスを実現し、リソースをはるかに少なく消費していることを示している。
例えば、PVTv2-B0とImageNet-1Kに基づいて、Ecoformerは73%のエネルギーフットプリント削減を実現している。
コードはhttps://github.com/ziplab/ecoformerで入手できる。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - Accelerating Transformers with Spectrum-Preserving Token Merging [43.463808781808645]
PiToMeは、エネルギースコアと呼ばれる追加のメトリックを使用して、情報トークンの保存を優先する。
実験の結果,PiToMeはベースモデルの40~60%のFLOPから保存されていた。
論文 参考訳(メタデータ) (2024-05-25T09:37:01Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - BiFormer: Vision Transformer with Bi-Level Routing Attention [26.374724782056557]
本稿では,コンテンツ認識を伴う計算のより柔軟なアロケーションを実現するために,バイレベルルーティングによる新しい動的スパースアテンションを提案する。
具体的には、クエリにおいて、無関係なキー値対をまず粗い領域レベルでフィルタリングし、残った候補領域の結合にきめ細かなトークン対注意を適用する。
提案された双方向ルーティングアテンションによって構築され、BiFormerと呼ばれる新しい汎用ビジョントランスフォーマーが提示される。
論文 参考訳(メタデータ) (2023-03-15T17:58:46Z) - Graph-Collaborated Auto-Encoder Hashing for Multi-view Binary Clustering [11.082316688429641]
マルチビューバイナリクラスタリングのための自動エンコーダに基づくハッシュアルゴリズムを提案する。
具体的には,低ランク制約を用いた多視点親和性グラフ学習モデルを提案する。
また、複数の親和性グラフを協調して協調するエンコーダ・デコーダのパラダイムを設計し、統一されたバイナリコードを効果的に学習する。
論文 参考訳(メタデータ) (2023-01-06T12:43:13Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Sparse Attention Acceleration with Synergistic In-Memory Pruning and
On-Chip Recomputation [6.303594714446706]
自己認識機構は、入力シーケンス全体にわたってペアワイズ相関を計測する。
良好な性能にもかかわらず、ペアワイズ相関を計算するのは非常にコストがかかる。
この研究は、注意点を近似的に計算するSPRINTと呼ばれるアクセラレーターを設計することで、これらの制約に対処する。
論文 参考訳(メタデータ) (2022-09-01T17:18:19Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。