論文の概要: SparseViT: Revisiting Activation Sparsity for Efficient High-Resolution
Vision Transformer
- arxiv url: http://arxiv.org/abs/2303.17605v1
- Date: Thu, 30 Mar 2023 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 12:15:08.556042
- Title: SparseViT: Revisiting Activation Sparsity for Efficient High-Resolution
Vision Transformer
- Title(参考訳): SparseViT:高分解能ビジョン変換器の活性化空間の再検討
- Authors: Xuanyao Chen, Zhijian Liu, Haotian Tang, Li Yi, Hang Zhao, Song Han
- Abstract要約: 我々は、最近のウィンドウベース視覚変換器(ViT)のアクティベーション空間を再考するSparseViTを紹介する。
SparseViTは、モノクロ3Dオブジェクト検出、2Dインスタンスセグメンテーション、および2Dセマンティックセグメンテーションにおいて、密度の高い1.5x、1.4x、1.3xのスピードアップを実現している。
- 参考スコア(独自算出の注目度): 42.440822037774645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution images enable neural networks to learn richer visual
representations. However, this improved performance comes at the cost of
growing computational complexity, hindering their usage in latency-sensitive
applications. As not all pixels are equal, skipping computations for
less-important regions offers a simple and effective measure to reduce the
computation. This, however, is hard to be translated into actual speedup for
CNNs since it breaks the regularity of the dense convolution workload. In this
paper, we introduce SparseViT that revisits activation sparsity for recent
window-based vision transformers (ViTs). As window attentions are naturally
batched over blocks, actual speedup with window activation pruning becomes
possible: i.e., ~50% latency reduction with 60% sparsity. Different layers
should be assigned with different pruning ratios due to their diverse
sensitivities and computational costs. We introduce sparsity-aware adaptation
and apply the evolutionary search to efficiently find the optimal layerwise
sparsity configuration within the vast search space. SparseViT achieves
speedups of 1.5x, 1.4x, and 1.3x compared to its dense counterpart in monocular
3D object detection, 2D instance segmentation, and 2D semantic segmentation,
respectively, with negligible to no loss of accuracy.
- Abstract(参考訳): 高解像度の画像により、ニューラルネットワークはよりリッチな視覚表現を学習できる。
しかし、このパフォーマンス向上は計算の複雑さを増大させ、レイテンシに敏感なアプリケーションでの使用を妨げている。
すべてのピクセルが等しいわけではないので、重要でない領域で計算をスキップすることは、計算を減らすための単純で効果的な尺度を提供する。
しかし、高密度畳み込みワークロードの規則性を損なうため、CNNの実際のスピードアップに変換することは困難である。
本稿では、最近のウィンドウベース視覚変換器(ViT)のアクティベーション空間を再検討するSparseViTを紹介する。
ウィンドウアテンションがブロック越しに自然にバッチされるので、ウィンドウアクティベーションプルーニングによる実際のスピードアップが可能になった。
異なる層は、様々な感度と計算コストのために異なるプルーニング比を割り当てるべきである。
本稿では、空間の空間内における最適層幅配置を効率よく見つけるために、空間空間適応を導入し、進化的探索を適用する。
SparseViTは、モノクロ3Dオブジェクト検出、2Dインスタンスセグメンテーション、および2Dセマンティックセグメンテーションにおいて、精度を失うことなく1.5x、1.4x、1.3xのスピードアップを達成する。
関連論文リスト
- MaskVD: Region Masking for Efficient Video Object Detection [11.759503235646696]
ビデオタスクは計算量が多く、リアルタイムアプリケーションにデプロイする際の課題となる。
本稿では,ビデオフレームにおけるマスキング領域の戦略を提案する。
以前のフレームから抽出した特徴を活用することで、ViTバックボーンはリージョンマスキングの恩恵を直接受けられる。
論文 参考訳(メタデータ) (2024-07-16T08:01:49Z) - ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention [33.00435765051738]
我々は、Gated Linear Attention (GLA) を視覚に導入し、その優れたハードウェア認識と効率を活用している。
提案するモデルであるViGは、ImageNetおよび下流タスクにおける精度、パラメータ、FLOPの良好なトレードオフを提供する。
ViG-Tは5.2$times$より少ないFLOPを使用し、90%のGPUメモリを節約し、4.8$times$高速に動作し、DeiT-Tよりも20.7%高いトップ1精度を達成する。
論文 参考訳(メタデータ) (2024-05-28T17:59:21Z) - Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like
Speed [42.861344584752]
従来は検出不要であったLoFTRは、大きな視点の変化とテクスチャ・ポーアのシナリオを扱う際、顕著な整合性を示した。
設計上の選択を再検討し、効率と精度の両面で複数の改善を導出する。
提案手法は,競争力のあるセミセンス・マーカと比較して高い精度を実現することができる。
論文 参考訳(メタデータ) (2024-03-07T18:58:40Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。
私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文 参考訳(メタデータ) (2023-03-27T17:59:58Z) - Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic
Programming [15.458305667190256]
本稿では,一般的な畳み込み操作を対象とする新しい深度圧縮アルゴリズムを提案する。
ImageNetのMobileNetV2-1.0では、0.11%の精度で1.41タイムのスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-01-28T13:08:54Z) - TorchSparse: Efficient Point Cloud Inference Engine [24.541195361633523]
本稿では,高性能なポイントクラウド推論エンジンであるTorchSparseを紹介する。
TorchSparseはスパース畳み込みの2つのボトルネック、すなわち不規則な計算とデータ移動を直接最適化する。
最先端のMinkowskiEngineとSpConvで、それぞれ1.6倍と1.5倍のエンドツーエンドのスピードアップを実現している。
論文 参考訳(メタデータ) (2022-04-21T17:58:30Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。