論文の概要: EfficientViT: Enhanced Linear Attention for High-Resolution
Low-Computation Visual Recognition
- arxiv url: http://arxiv.org/abs/2205.14756v1
- Date: Sun, 29 May 2022 20:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 11:40:46.187536
- Title: EfficientViT: Enhanced Linear Attention for High-Resolution
Low-Computation Visual Recognition
- Title(参考訳): efficientvit:高分解能低計算視覚認識のための線形注意の強化
- Authors: Han Cai, Chuang Gan, Song Han
- Abstract要約: Vision Transformer (ViT)は多くの視覚タスクにおいて顕著なパフォーマンスを達成した。
ViTは高解像度のモバイルビジョンアプリケーションをターゲットにした畳み込みニューラルネットワーク(CNN)に劣る。
我々は高分解能低解像度視覚認識のための効率的なViTアーキテクチャであるEfficientViTを提案する。
- 参考スコア(独自算出の注目度): 81.7327796151443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer (ViT) has achieved remarkable performance in many vision
tasks. However, ViT is inferior to convolutional neural networks (CNNs) when
targeting high-resolution mobile vision applications. The key computational
bottleneck of ViT is the softmax attention module which has quadratic
computational complexity with the input resolution. It is essential to reduce
the cost of ViT to deploy it on edge devices. Existing methods (e.g., Swin,
PVT) restrict the softmax attention within local windows or reduce the
resolution of key/value tensors to reduce the cost, which sacrifices ViT's core
advantages on global feature extractions. In this work, we present
EfficientViT, an efficient ViT architecture for high-resolution low-computation
visual recognition. Instead of restricting the softmax attention, we propose to
replace softmax attention with linear attention while enhancing its local
feature extraction ability with depthwise convolution. EfficientViT maintains
global and local feature extraction capability while enjoying linear
computational complexity. Extensive experiments on COCO object detection and
Cityscapes semantic segmentation demonstrate the effectiveness of our method.
On the COCO dataset, EfficientViT achieves 42.6 AP with 4.4G MACs, surpassing
EfficientDet-D1 by 2.4 AP while having 27.9% fewer MACs. On Cityscapes,
EfficientViT reaches 78.7 mIoU with 19.1G MACs, outperforming SegFormer by 2.5
mIoU while requiring less than 1/3 the computational cost. On Qualcomm
Snapdragon 855 CPU, EfficientViT is 3x faster than EfficientNet while achieving
higher ImageNet accuracy.
- Abstract(参考訳): Vision Transformer (ViT)は多くの視覚タスクにおいて顕著なパフォーマンスを達成した。
しかし、ViTは高解像度のモバイルビジョンアプリケーションをターゲットにする場合、畳み込みニューラルネットワーク(CNN)よりも劣る。
vitの鍵となる計算ボトルネックは、入力解像度で二次計算複雑性を持つsoftmax attentionモジュールである。
エッジデバイスにデプロイするためのViTのコストを削減することが不可欠である。
既存の方法(swain、pvtなど)では、ローカルウィンドウ内のソフトマックスの注意を制限したり、コスト削減のためにキー/値テンソルの分解を削減したりする。
本研究では,高分解能低解像度視覚認識のための効率的なViTアーキテクチャであるEfficientViTを提案する。
ソフトマックスの注意を制限する代わりに,ソフトマックスの注意を線形注意で置き換え,その局所的特徴抽出能力を奥行き方向の畳み込みで高めることを提案する。
EfficientViTは、線形計算複雑性を楽しみながら、グローバルおよびローカルな特徴抽出機能を維持している。
COCOオブジェクトの検出とCityscapesセマンティックセグメンテーションに関する大規模な実験により,本手法の有効性が示された。
COCOデータセットでは、EfficientViTは4.4GのMACで42.6 APを獲得し、EfficientDet-D1を2.4 APで上回り、MACは27.9%減少している。
Cityscapesでは、EfficientViTは78.7 mIoUに達し、19.1GのMACはSegFormerを2.5 mIoUで上回り、計算コストは1/3以下である。
Qualcomm Snapdragon 855 CPUでは、EfficientViTはEfficientNetより3倍速く、ImageNetの精度は高い。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems [6.8519529064678375]
大規模な機械学習モデルのトレーニングとデプロイには時間がかかり、分散コンピューティングのインフラがかなり必要で、運用コストも高い。
この卓越した通信遅延を最小化するために、我々はアジャイルのパフォーマンスモデリングフレームワークMAD-Maxを導入しました。
このフレームワークは、並列化戦略を最適化し、ハードウェアとソフトウェアの共同設計の機会を促進するように設計されている。
論文 参考訳(メタデータ) (2023-10-04T13:00:53Z) - EfficientViT: Memory Efficient Vision Transformer with Cascaded Group
Attention [44.148667664413004]
我々はEfficientViTという高速視覚変換器群を提案する。
既存のトランスモデルの速度は、一般にメモリ非効率な演算によって制限される。
この問題に対処するため,異なるスプリットのアテンションヘッドを刺激するグループアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:59:41Z) - InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - Efficient Large-scale Scene Representation with a Hybrid of
High-resolution Grid and Plane Features [44.25307397334988]
大規模シーンモデリングのための既存のニューラルレイディアンスフィールド(NeRF)法は、複数のGPUを用いたトレーニングの日数を必要とする。
我々は,3次元ハッシュグレードと高分解能2次元高密度平面特徴を融合したNeRFの高速ハイブリッド特徴表現を提案する。
このハイブリッド表現に基づいて,コンパクトなモデルサイズを維持しつつ,より優れたレンダリング結果が得られるGP-NeRFと呼ばれる高速最適化NeRF変種を提案する。
論文 参考訳(メタデータ) (2023-03-06T10:04:50Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - Efficient Heterogeneous Video Segmentation at the Edge [2.4378845585726903]
ヘテロジニアス計算を利用したリソース制限エッジデバイスのための効率的なビデオセグメンテーションシステムを提案する。
具体的には、ニューラルネットワークの仕様を多次元にわたって探索することで、ネットワークモデルを設計する。
我々は、CPU、GPU、NPUにまたがるシステムの異種データフローを分析し、最適化する。
論文 参考訳(メタデータ) (2022-08-24T17:01:09Z) - DeepSpeed Inference: Enabling Efficient Inference of Transformer Models
at Unprecedented Scale [20.558091867632445]
DeepSpeed Inferenceは、トランスフォーマーモデル推論のための包括的なシステムソリューションである。
レイテンシ指向シナリオの最先端よりもレイテンシを最大7.3倍削減し、スループット指向シナリオのスループットを1.5倍向上する。
GPUのみのソリューションよりも25倍大きなモデルを推論でき、高いスループットは84 TFLOPS(A6000ピークの50ドル以上)を提供する。
論文 参考訳(メタデータ) (2022-06-30T18:01:08Z) - Revisiting Multi-Scale Feature Fusion for Semantic Segmentation [90.32746095413447]
本稿では,高精度なセマンティックセグメンテーションには高い内部分解能もアトラス畳み込みも不要であることを示す。
我々は,内部分解能が高く,高コストなアトラス畳み込みをもたない,ESegと呼ばれる簡易なセグメンテーションモデルを開発した。
我々の単純な手法は、複数のデータセットにまたがる先行技術よりも高速で精度を向上できる。
論文 参考訳(メタデータ) (2022-03-23T19:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。