論文の概要: EfficientViT: Lightweight Multi-Scale Attention for On-Device Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2205.14756v3
- Date: Thu, 6 Apr 2023 01:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 18:10:49.595878
- Title: EfficientViT: Lightweight Multi-Scale Attention for On-Device Semantic
Segmentation
- Title(参考訳): EfficientViT:オンデバイスセマンティックセマンティックセグメンテーションのための軽量マルチスケールアテンション
- Authors: Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han
- Abstract要約: この研究は、デバイス上のセマンティックセマンティックセマンティクスのための、新しい軽量なマルチスケールアテンションを備えたセマンティクスセマンティクスモデルであるEfficientViTを提示する。
我々の軽量なマルチスケールアテンションは、グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは、SegFormerとSegNeXtをそれぞれ最大15倍、9.3倍のモバイルレイテンシ削減を提供します。
- 参考スコア(独自算出の注目度): 67.19955314517361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation enables many appealing real-world applications, such as
computational photography, autonomous driving, etc. However, the vast
computational cost makes deploying state-of-the-art semantic segmentation
models on edge devices with limited hardware resources difficult. This work
presents EfficientViT, a new family of semantic segmentation models with a
novel lightweight multi-scale attention for on-device semantic segmentation.
Unlike prior semantic segmentation models that rely on heavy self-attention,
hardware-inefficient large-kernel convolution, or complicated topology
structure to obtain good performances, our lightweight multi-scale attention
achieves a global receptive field and multi-scale learning (two critical
features for semantic segmentation models) with only lightweight and
hardware-efficient operations. As such, EfficientViT delivers remarkable
performance gains over previous state-of-the-art semantic segmentation models
across popular benchmark datasets with significant speedup on the mobile
platform. Without performance loss on Cityscapes, our EfficientViT provides up
to 15x and 9.3x mobile latency reduction over SegFormer and SegNeXt,
respectively. Maintaining the same mobile latency, EfficientViT provides +7.4
mIoU gain on ADE20K over SegNeXt. Code:
https://github.com/mit-han-lab/efficientvit.
- Abstract(参考訳): セマンティックセグメンテーションは、計算写真や自律運転など、多くの魅力的な現実世界のアプリケーションを可能にする。
しかし、計算コストが大きいため、ハードウェアリソースが限られているエッジデバイスに最先端セマンティックセグメンテーションモデルをデプロイすることは困難である。
この研究は、デバイス上のセマンティックセマンティックセマンティクスのための、新しい軽量なマルチスケールアテンションを備えたセマンティクスセマンティクスモデルであるEfficientViTを提示する。
先行するセマンティクスセグメンテーションモデルが,ハードウェア非効率な大規模カーネル畳み込みや複雑なトポロジ構造に依存して優れた性能を得るためには,従来のセマンティクスセグメンテーションモデルと異なり,軽量でハードウェア効率の高い操作のみを用いて,グローバル受容場とマルチスケール学習(セマンティクスセグメンテーションモデルにおける2つの重要な特徴)を実現する。
このように、 efficientvitは、モバイルプラットフォームでの大幅なスピードアップとともに、人気のあるベンチマークデータセットをまたいで、以前の最先端セマンティックセグメンテーションモデルよりも優れたパフォーマンスを提供する。
Cityscapesのパフォーマンスを損なうことなく、当社のEfficientViTは、SegFormerとSegNeXtをそれぞれ最大15倍、9.3倍のモバイルレイテンシ削減を提供します。
同じモバイルレイテンシを維持するために、EfficientViTはSegNeXtよりもADE20Kで+7.4 mIoUゲインを提供する。
コード:https://github.com/mit-han-lab/efficientvit。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems [6.8519529064678375]
大規模な機械学習モデルのトレーニングとデプロイには時間がかかり、分散コンピューティングのインフラがかなり必要で、運用コストも高い。
この卓越した通信遅延を最小化するために、我々はアジャイルのパフォーマンスモデリングフレームワークMAD-Maxを導入しました。
このフレームワークは、並列化戦略を最適化し、ハードウェアとソフトウェアの共同設計の機会を促進するように設計されている。
論文 参考訳(メタデータ) (2023-10-04T13:00:53Z) - EfficientViT: Memory Efficient Vision Transformer with Cascaded Group
Attention [44.148667664413004]
我々はEfficientViTという高速視覚変換器群を提案する。
既存のトランスモデルの速度は、一般にメモリ非効率な演算によって制限される。
この問題に対処するため,異なるスプリットのアテンションヘッドを刺激するグループアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:59:41Z) - InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - Efficient Large-scale Scene Representation with a Hybrid of
High-resolution Grid and Plane Features [44.25307397334988]
大規模シーンモデリングのための既存のニューラルレイディアンスフィールド(NeRF)法は、複数のGPUを用いたトレーニングの日数を必要とする。
我々は,3次元ハッシュグレードと高分解能2次元高密度平面特徴を融合したNeRFの高速ハイブリッド特徴表現を提案する。
このハイブリッド表現に基づいて,コンパクトなモデルサイズを維持しつつ,より優れたレンダリング結果が得られるGP-NeRFと呼ばれる高速最適化NeRF変種を提案する。
論文 参考訳(メタデータ) (2023-03-06T10:04:50Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - Efficient Heterogeneous Video Segmentation at the Edge [2.4378845585726903]
ヘテロジニアス計算を利用したリソース制限エッジデバイスのための効率的なビデオセグメンテーションシステムを提案する。
具体的には、ニューラルネットワークの仕様を多次元にわたって探索することで、ネットワークモデルを設計する。
我々は、CPU、GPU、NPUにまたがるシステムの異種データフローを分析し、最適化する。
論文 参考訳(メタデータ) (2022-08-24T17:01:09Z) - DeepSpeed Inference: Enabling Efficient Inference of Transformer Models
at Unprecedented Scale [20.558091867632445]
DeepSpeed Inferenceは、トランスフォーマーモデル推論のための包括的なシステムソリューションである。
レイテンシ指向シナリオの最先端よりもレイテンシを最大7.3倍削減し、スループット指向シナリオのスループットを1.5倍向上する。
GPUのみのソリューションよりも25倍大きなモデルを推論でき、高いスループットは84 TFLOPS(A6000ピークの50ドル以上)を提供する。
論文 参考訳(メタデータ) (2022-06-30T18:01:08Z) - Revisiting Multi-Scale Feature Fusion for Semantic Segmentation [90.32746095413447]
本稿では,高精度なセマンティックセグメンテーションには高い内部分解能もアトラス畳み込みも不要であることを示す。
我々は,内部分解能が高く,高コストなアトラス畳み込みをもたない,ESegと呼ばれる簡易なセグメンテーションモデルを開発した。
我々の単純な手法は、複数のデータセットにまたがる先行技術よりも高速で精度を向上できる。
論文 参考訳(メタデータ) (2022-03-23T19:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。