論文の概要: EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction
- arxiv url: http://arxiv.org/abs/2205.14756v5
- Date: Wed, 27 Sep 2023 01:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 10:32:41.963597
- Title: EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction
- Title(参考訳): EfficientViT:高分解能Dense予測のためのマルチスケールリニアアテンション
- Authors: Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han
- Abstract要約: 高解像度密度予測は、計算写真や自律運転など、多くの魅力的な現実世界のアプリケーションを可能にする。
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
- 参考スコア(独自算出の注目度): 67.11722682878722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-resolution dense prediction enables many appealing real-world
applications, such as computational photography, autonomous driving, etc.
However, the vast computational cost makes deploying state-of-the-art
high-resolution dense prediction models on hardware devices difficult. This
work presents EfficientViT, a new family of high-resolution vision models with
novel multi-scale linear attention. Unlike prior high-resolution dense
prediction models that rely on heavy softmax attention, hardware-inefficient
large-kernel convolution, or complicated topology structure to obtain good
performances, our multi-scale linear attention achieves the global receptive
field and multi-scale learning (two desirable features for high-resolution
dense prediction) with only lightweight and hardware-efficient operations. As
such, EfficientViT delivers remarkable performance gains over previous
state-of-the-art models with significant speedup on diverse hardware platforms,
including mobile CPU, edge GPU, and cloud GPU. Without performance loss on
Cityscapes, our EfficientViT provides up to 13.9x and 6.2x GPU latency
reduction over SegFormer and SegNeXt, respectively. For super-resolution,
EfficientViT delivers up to 6.4x speedup over Restormer while providing 0.11dB
gain in PSNR. For Segment Anything, EfficientViT delivers similar zero-shot
image segmentation quality as ViT-Huge with 84x higher throughput on GPU. Code:
https://github.com/mit-han-lab/efficientvit.
- Abstract(参考訳): 高分解能高密度予測は、計算写真や自動運転など、多くの現実世界の応用を可能にする。
しかし、計算コストが大きいため、最先端の高解像度の予測モデルをハードウェアデバイスに展開することは困難である。
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
従来のソフトマックス, ハードウェア非効率大カーネル畳み込み, 複雑なトポロジ構造に依存した高分解能高密度予測モデルとは異なり, マルチスケール線形注意は, 軽量かつハードウェア効率の高い操作のみで, グローバル受容場とマルチスケール学習(高分解能高密度予測の2つの望ましい特徴)を実現する。
そのため、EfficientViTは、モバイルCPU、エッジGPU、クラウドGPUなど、さまざまなハードウェアプラットフォーム上での大幅なスピードアップによって、これまでの最先端モデルよりも、顕著なパフォーマンス向上を実現している。
Cityscapesのパフォーマンスを損なうことなく、当社のEfficientViTは、SegFormerとSegNeXtでそれぞれ最大13.9xと6.2xのGPUレイテンシを削減します。
超高解像度では、EfficientViTはRestormer上で最大6.4倍のスピードアップを実現し、PSNRでは0.11dBのゲインを提供する。
Segment Anythingでは、EfficientViTはVT-Hugeと同様のゼロショットイメージセグメンテーション品質を提供し、GPUのスループットは84倍になる。
コード:https://github.com/mit-han-lab/efficientvit。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems [6.8519529064678375]
大規模な機械学習モデルのトレーニングとデプロイには時間がかかり、分散コンピューティングのインフラがかなり必要で、運用コストも高い。
この卓越した通信遅延を最小化するために、我々はアジャイルのパフォーマンスモデリングフレームワークMAD-Maxを導入しました。
このフレームワークは、並列化戦略を最適化し、ハードウェアとソフトウェアの共同設計の機会を促進するように設計されている。
論文 参考訳(メタデータ) (2023-10-04T13:00:53Z) - EfficientViT: Memory Efficient Vision Transformer with Cascaded Group
Attention [44.148667664413004]
我々はEfficientViTという高速視覚変換器群を提案する。
既存のトランスモデルの速度は、一般にメモリ非効率な演算によって制限される。
この問題に対処するため,異なるスプリットのアテンションヘッドを刺激するグループアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:59:41Z) - InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - Efficient Large-scale Scene Representation with a Hybrid of
High-resolution Grid and Plane Features [44.25307397334988]
大規模シーンモデリングのための既存のニューラルレイディアンスフィールド(NeRF)法は、複数のGPUを用いたトレーニングの日数を必要とする。
我々は,3次元ハッシュグレードと高分解能2次元高密度平面特徴を融合したNeRFの高速ハイブリッド特徴表現を提案する。
このハイブリッド表現に基づいて,コンパクトなモデルサイズを維持しつつ,より優れたレンダリング結果が得られるGP-NeRFと呼ばれる高速最適化NeRF変種を提案する。
論文 参考訳(メタデータ) (2023-03-06T10:04:50Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - Efficient Heterogeneous Video Segmentation at the Edge [2.4378845585726903]
ヘテロジニアス計算を利用したリソース制限エッジデバイスのための効率的なビデオセグメンテーションシステムを提案する。
具体的には、ニューラルネットワークの仕様を多次元にわたって探索することで、ネットワークモデルを設計する。
我々は、CPU、GPU、NPUにまたがるシステムの異種データフローを分析し、最適化する。
論文 参考訳(メタデータ) (2022-08-24T17:01:09Z) - DeepSpeed Inference: Enabling Efficient Inference of Transformer Models
at Unprecedented Scale [20.558091867632445]
DeepSpeed Inferenceは、トランスフォーマーモデル推論のための包括的なシステムソリューションである。
レイテンシ指向シナリオの最先端よりもレイテンシを最大7.3倍削減し、スループット指向シナリオのスループットを1.5倍向上する。
GPUのみのソリューションよりも25倍大きなモデルを推論でき、高いスループットは84 TFLOPS(A6000ピークの50ドル以上)を提供する。
論文 参考訳(メタデータ) (2022-06-30T18:01:08Z) - Revisiting Multi-Scale Feature Fusion for Semantic Segmentation [90.32746095413447]
本稿では,高精度なセマンティックセグメンテーションには高い内部分解能もアトラス畳み込みも不要であることを示す。
我々は,内部分解能が高く,高コストなアトラス畳み込みをもたない,ESegと呼ばれる簡易なセグメンテーションモデルを開発した。
我々の単純な手法は、複数のデータセットにまたがる先行技術よりも高速で精度を向上できる。
論文 参考訳(メタデータ) (2022-03-23T19:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。