Fugu-MT 論文翻訳(概要): EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction

論文の概要: EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction

arxiv url: http://arxiv.org/abs/2205.14756v6
Date: Tue, 6 Feb 2024 02:57:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 21:41:54.569761
Title: EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction
Title（参考訳）: EfficientViT:高分解能Dense予測のためのマルチスケールリニアアテンション
Authors: Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han
Abstract要約: この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。 EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
参考スコア（独自算出の注目度）: 67.11722682878722
License: http://creativecommons.org/licenses/by/4.0/
Abstract: High-resolution dense prediction enables many appealing real-world applications, such as computational photography, autonomous driving, etc. However, the vast computational cost makes deploying state-of-the-art high-resolution dense prediction models on hardware devices difficult. This work presents EfficientViT, a new family of high-resolution vision models with novel multi-scale linear attention. Unlike prior high-resolution dense prediction models that rely on heavy softmax attention, hardware-inefficient large-kernel convolution, or complicated topology structure to obtain good performances, our multi-scale linear attention achieves the global receptive field and multi-scale learning (two desirable features for high-resolution dense prediction) with only lightweight and hardware-efficient operations. As such, EfficientViT delivers remarkable performance gains over previous state-of-the-art models with significant speedup on diverse hardware platforms, including mobile CPU, edge GPU, and cloud GPU. Without performance loss on Cityscapes, our EfficientViT provides up to 13.9$\times$ and 6.2$\times$ GPU latency reduction over SegFormer and SegNeXt, respectively. For super-resolution, EfficientViT delivers up to 6.4x speedup over Restormer while providing 0.11dB gain in PSNR. For Segment Anything, EfficientViT delivers 48.9x higher throughput on A100 GPU while achieving slightly better zero-shot instance segmentation performance on COCO.
Abstract（参考訳）: 高分解能高密度予測は、計算写真や自動運転など、多くの現実世界の応用を可能にする。しかし、計算コストが大きいため、最先端の高解像度の予測モデルをハードウェアデバイスに展開することは困難である。この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。従来のソフトマックス, ハードウェア非効率大カーネル畳み込み, 複雑なトポロジ構造に依存した高分解能高密度予測モデルとは異なり, マルチスケール線形注意は, 軽量かつハードウェア効率の高い操作のみで, グローバル受容場とマルチスケール学習(高分解能高密度予測の2つの望ましい特徴)を実現する。そのため、EfficientViTは、モバイルCPU、エッジGPU、クラウドGPUなど、さまざまなハードウェアプラットフォーム上での大幅なスピードアップによって、これまでの最先端モデルよりも、顕著なパフォーマンス向上を実現している。 Cityscapesのパフォーマンスを損なうことなく、EfficientViTは最大13.9$\times$と6.2$\times$GPUレイテンシをSegFormerとSegNeXtで削減します。超高解像度では、EfficientViTはRestormer上で最大6.4倍のスピードアップを実現し、PSNRでは0.11dBのゲインを提供する。 Segment Anythingでは、EfficientViTはA100 GPU上で48.9倍高いスループットを提供すると同時に、COCO上でのゼロショットインスタンスセグメンテーションのパフォーマンスをわずかに向上させる。

関連論文リスト

PocketSR: The Super-Resolution Expert in Your Pocket Mobiles [69.26751136689533]
リアルワールド・イメージ・スーパーレゾリューション (RealSR) は、携帯電話が捉えたような、Wild内の画像の視覚的品質を高めることを目的としている。大規模な生成モデルを利用する既存の手法は印象的な結果を示しているが、計算コストとレイテンシが高いため、エッジ配置には実用的ではない。超軽量単一ステップモデルであるPocketSRを導入し,高忠実度を維持しつつ生成モデリング機能をRealSRにもたらす。
論文参考訳（メタデータ） (2025-10-03T13:56:18Z)
JaneEye: A 12-nm 2K-FPS 18.9-$μ$J/Frame Event-based Eye Tracking Accelerator [12.18562859126189]
JaneEyeは、ウェアラブルデバイスのためのエネルギー効率の高いイベントベースのアイトラッキングハードウェアアクセラレータだ。提案モデルでは,最大1250Hzのイベントフレームレートを持つ17.6Kパラメータのみを用いて,3ET+データセットの画素誤差2.45の高精度化を実現している。 12nm ASIC の実装は 400MHz で動作するため、エンドツーエンドのレイテンシは 0.5 ms で、エネルギー効率は 18.9$mu$J/frame である。
論文参考訳（メタデータ） (2025-09-18T21:37:49Z)
HOMI: Ultra-Fast EdgeAI platform for Event Cameras [1.9923531555025618]
イベントカメラは、非同期操作とスパースでイベント駆動の出力のため、エッジロボティクスアプリケーションに大きな利点をもたらす。我々は、Xilinx Zynq UltraScale+MPSoC FPGAチップを備えたProphesee IMX636イベントセンサチップからなる、超低レイテンシでエンドツーエンドのエッジAIプラットフォームを提案する。
論文参考訳（メタデータ） (2025-08-18T05:47:48Z)
Dovetail: A CPU/GPU Heterogeneous Speculative Decoding for LLM inference [31.901686946969786]
Dovetailは異種デバイスの相補的特性と投機的復号化の利点を利用する推論手法である。 Dovetailは、異なるデバイス間で1.79xから10.1xまでの推論スピードアップを実現し、生成したテキストの一貫性と安定性を維持している。
論文参考訳（メタデータ） (2024-12-25T15:45:18Z)
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。 CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。 CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文参考訳（メタデータ） (2024-11-26T15:13:15Z)
Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文参考訳（メタデータ） (2024-07-25T16:35:46Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems [6.8519529064678375]
大規模な機械学習モデルのトレーニングとデプロイには時間がかかり、分散コンピューティングのインフラがかなり必要で、運用コストも高い。この卓越した通信遅延を最小化するために、我々はアジャイルのパフォーマンスモデリングフレームワークMAD-Maxを導入しました。このフレームワークは、並列化戦略を最適化し、ハードウェアとソフトウェアの共同設計の機会を促進するように設計されている。
論文参考訳（メタデータ） (2023-10-04T13:00:53Z)
EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention [44.148667664413004]
我々はEfficientViTという高速視覚変換器群を提案する。既存のトランスモデルの速度は、一般にメモリ非効率な演算によって制限される。この問題に対処するため,異なるスプリットのアテンションヘッドを刺激するグループアテンションモジュールを提案する。
論文参考訳（メタデータ） (2023-05-11T17:59:41Z)
InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。 InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文参考訳（メタデータ） (2023-03-29T17:59:58Z)
Efficient Large-scale Scene Representation with a Hybrid of High-resolution Grid and Plane Features [44.25307397334988]
大規模シーンモデリングのための既存のニューラルレイディアンスフィールド(NeRF)法は、複数のGPUを用いたトレーニングの日数を必要とする。我々は,3次元ハッシュグレードと高分解能2次元高密度平面特徴を融合したNeRFの高速ハイブリッド特徴表現を提案する。このハイブリッド表現に基づいて,コンパクトなモデルサイズを維持しつつ,より優れたレンダリング結果が得られるGP-NeRFと呼ばれる高速最適化NeRF変種を提案する。
論文参考訳（メタデータ） (2023-03-06T10:04:50Z)
Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文参考訳（メタデータ） (2022-10-16T16:21:40Z)
Efficient Heterogeneous Video Segmentation at the Edge [2.4378845585726903]
ヘテロジニアス計算を利用したリソース制限エッジデバイスのための効率的なビデオセグメンテーションシステムを提案する。具体的には、ニューラルネットワークの仕様を多次元にわたって探索することで、ネットワークモデルを設計する。我々は、CPU、GPU、NPUにまたがるシステムの異種データフローを分析し、最適化する。
論文参考訳（メタデータ） (2022-08-24T17:01:09Z)
DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale [20.558091867632445]
DeepSpeed Inferenceは、トランスフォーマーモデル推論のための包括的なシステムソリューションである。レイテンシ指向シナリオの最先端よりもレイテンシを最大7.3倍削減し、スループット指向シナリオのスループットを1.5倍向上する。 GPUのみのソリューションよりも25倍大きなモデルを推論でき、高いスループットは84 TFLOPS(A6000ピークの50ドル以上)を提供する。
論文参考訳（メタデータ） (2022-06-30T18:01:08Z)
Revisiting Multi-Scale Feature Fusion for Semantic Segmentation [90.32746095413447]
本稿では,高精度なセマンティックセグメンテーションには高い内部分解能もアトラス畳み込みも不要であることを示す。我々は,内部分解能が高く,高コストなアトラス畳み込みをもたない,ESegと呼ばれる簡易なセグメンテーションモデルを開発した。我々の単純な手法は、複数のデータセットにまたがる先行技術よりも高速で精度を向上できる。
論文参考訳（メタデータ） (2022-03-23T19:14:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。