論文の概要: ViTALiTy: Unifying Low-rank and Sparse Approximation for Vision
Transformer Acceleration with a Linear Taylor Attention
- arxiv url: http://arxiv.org/abs/2211.05109v1
- Date: Wed, 9 Nov 2022 18:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 16:38:10.101693
- Title: ViTALiTy: Unifying Low-rank and Sparse Approximation for Vision
Transformer Acceleration with a Linear Taylor Attention
- Title(参考訳): バイタリティ:線形テイラー注意による視覚変圧器加速度の低ランクとスパース近似の統一
- Authors: Jyotikrishna Dass, Shang Wu, Huihong Shi, Chaojian Li, Zhifan Ye,
Zhongfeng Wang and Yingyan Lin
- Abstract要約: Vision Transformer (ViT)は、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワークの競合代替として登場した。
そこで本研究では,VitaliTy という,VT の推論効率向上のためのハードウェア設計フレームワークを提案する。
ViTALiTyは、ViTにおける注目の低ランクとスパースの両方のコンポーネントを統合する。
- 参考スコア(独自算出の注目度): 23.874485033096917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer (ViT) has emerged as a competitive alternative to
convolutional neural networks for various computer vision applications.
Specifically, ViT multi-head attention layers make it possible to embed
information globally across the overall image. Nevertheless, computing and
storing such attention matrices incurs a quadratic cost dependency on the
number of patches, limiting its achievable efficiency and scalability and
prohibiting more extensive real-world ViT applications on resource-constrained
devices. Sparse attention has been shown to be a promising direction for
improving hardware acceleration efficiency for NLP models. However, a
systematic counterpart approach is still missing for accelerating ViT models.
To close the above gap, we propose a first-of-its-kind algorithm-hardware
codesigned framework, dubbed ViTALiTy, for boosting the inference efficiency of
ViTs. Unlike sparsity-based Transformer accelerators for NLP, ViTALiTy unifies
both low-rank and sparse components of the attention in ViTs. At the algorithm
level, we approximate the dot-product softmax operation via first-order Taylor
attention with row-mean centering as the low-rank component to linearize the
cost of attention blocks and further boost the accuracy by incorporating a
sparsity-based regularization. At the hardware level, we develop a dedicated
accelerator to better leverage the resulting workload and pipeline from
ViTALiTy's linear Taylor attention which requires the execution of only the
low-rank component, to further boost the hardware efficiency. Extensive
experiments and ablation studies validate that ViTALiTy offers boosted
end-to-end efficiency (e.g., $3\times$ faster and $3\times$ energy-efficient)
under comparable accuracy, with respect to the state-of-the-art solution.
- Abstract(参考訳): Vision Transformer (ViT)は、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワークの競合代替として登場した。
具体的には、ViTマルチヘッドアテンションレイヤは、全体像に情報をグローバルに埋め込むことができる。
それにもかかわらず、そのような注意行列の計算と保存はパッチの数に二次的なコスト依存を伴い、その実現可能な効率とスケーラビリティを制限し、リソース制約のあるデバイス上でより広範な実世界のvitアプリケーションを禁止している。
スパースアテンションはNLPモデルのハードウェアアクセラレーション効率を向上させる上で有望な方向であることが示されている。
しかし、ViTモデルを加速する体系的なアプローチはいまだに欠けている。
上記のギャップを埋めるため,VitaliTy と呼ばれる,アルゴリズムにハードウェアを組み込んだ最初のフレームワークを提案し,ViT の推論効率を向上する。
NLP用のスパシティベースのTransformerアクセラレータとは異なり、ViTALiTyはViTの注目点の低ランクとスパースの両方を統一する。
アルゴリズムレベルでは,1次テイラー注意によるドット積ソフトマックス操作をローランク成分として行平均中心に近似し,注目ブロックのコストを線形化し,疎度に基づく正規化を導入することにより精度を高める。
ハードウェアレベルでは、ViTALiTyの線形Taylorアテンションから得られる作業負荷とパイプラインをよりよく活用する専用のアクセラレータを開発し、低ランクコンポーネントのみの実行を必要とし、ハードウェア効率をさらに向上させる。
広範な実験とアブレーションの研究によって、バイタリティは、最先端のソリューションに関して、同等の精度でエンドツーエンドの効率(例えば、$3\times$高速で$3\times$エネルギー効率)をもたらすことが証明された。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - CHOSEN: Compilation to Hardware Optimization Stack for Efficient Vision Transformer Inference [4.523939613157408]
ビジョントランスフォーマー(ViT)は、コンピュータビジョンへの機械学習アプローチにおける画期的なシフトである。
本稿では,これらの課題に対処するソフトウェアハードウェアの共同設計フレームワークであるCHOSENを紹介し,FPGA上にViTをデプロイするための自動フレームワークを提供する。
ChoSENはDeiT-SとDeiT-Bモデルのスループットを1.5倍と1.42倍改善した。
論文 参考訳(メタデータ) (2024-07-17T16:56:06Z) - LPViT: Low-Power Semi-structured Pruning for Vision Transformers [42.91130720962956]
画像解析タスクのための畳み込みニューラルネットワークの代替手段として、ビジョントランスフォーマー(ViT)が登場した。
ViTの重大な欠点の1つは、リソース集約性であり、メモリフットプリント、複雑性、消費電力が増加することである。
我々は,ViTの資源集約的な問題に対処するため,新しいブロック構造プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-07-02T08:58:19Z) - You Only Need Less Attention at Each Stage in Vision Transformers [19.660385306028047]
ViT(Vision Transformer)は、自己認識モジュールを通じて画像のグローバルな情報をキャプチャする。
本稿では,各段階の注意操作のみを演算するLose-Attention Vision Transformer (LaViT)を提案する。
我々のアーキテクチャは、分類、検出、セグメンテーションを含む様々な視覚タスクにおいて、例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-01T12:49:16Z) - Accelerating Vision Transformers Based on Heterogeneous Attention
Patterns [89.86293867174324]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野で多くの注目を集めている。
層間における異種注意パターンの観測に基づく統合圧縮パイプラインを提案する。
実験的に、DGSSAとGLADの統合圧縮パイプラインは、最大121%のランタイムスループットを加速することができる。
論文 参考訳(メタデータ) (2023-10-11T17:09:19Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - ViTCoD: Vision Transformer Acceleration via Dedicated Algorithm and
Accelerator Co-Design [42.46121663652989]
ビジョントランスフォーマー(ViT)は、様々なビジョンタスクにおいて最先端のパフォーマンスを実現している。
しかし、ViTsの自己保持モジュールは依然として大きなボトルネックである。
本稿では,ViTの高速化を目的とした,ViTCoDと呼ばれる専用アルゴリズムとアクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T04:07:23Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。