論文の概要: TorchSparse: Efficient Point Cloud Inference Engine
- arxiv url: http://arxiv.org/abs/2204.10319v1
- Date: Thu, 21 Apr 2022 17:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 12:54:59.044535
- Title: TorchSparse: Efficient Point Cloud Inference Engine
- Title(参考訳): TorchSparse: 効率的なポイントクラウド推論エンジン
- Authors: Haotian Tang, Zhijian Liu, Xiuyu Li, Yujun Lin, Song Han
- Abstract要約: 本稿では,高性能なポイントクラウド推論エンジンであるTorchSparseを紹介する。
TorchSparseはスパース畳み込みの2つのボトルネック、すなわち不規則な計算とデータ移動を直接最適化する。
最先端のMinkowskiEngineとSpConvで、それぞれ1.6倍と1.5倍のエンドツーエンドのスピードアップを実現している。
- 参考スコア(独自算出の注目度): 24.541195361633523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning on point clouds has received increased attention thanks to its
wide applications in AR/VR and autonomous driving. These applications require
low latency and high accuracy to provide real-time user experience and ensure
user safety. Unlike conventional dense workloads, the sparse and irregular
nature of point clouds poses severe challenges to running sparse CNNs
efficiently on the general-purpose hardware. Furthermore, existing sparse
acceleration techniques for 2D images do not translate to 3D point clouds. In
this paper, we introduce TorchSparse, a high-performance point cloud inference
engine that accelerates the sparse convolution computation on GPUs. TorchSparse
directly optimizes the two bottlenecks of sparse convolution: irregular
computation and data movement. It applies adaptive matrix multiplication
grouping to trade computation for better regularity, achieving 1.4-1.5x speedup
for matrix multiplication. It also optimizes the data movement by adopting
vectorized, quantized and fused locality-aware memory access, reducing the
memory movement cost by 2.7x. Evaluated on seven representative models across
three benchmark datasets, TorchSparse achieves 1.6x and 1.5x measured
end-to-end speedup over the state-of-the-art MinkowskiEngine and SpConv,
respectively.
- Abstract(参考訳): ポイントクラウドでのディープラーニングは、AR/VRと自動運転の幅広い応用により、注目を集めている。
これらのアプリケーションは、リアルタイムユーザエクスペリエンスを提供し、ユーザの安全を確保するために、低レイテンシと高い精度を必要とする。
従来の濃密なワークロードとは異なり、ポイントクラウドのばらばらで不規則な性質は、汎用ハードウェア上でスパースcnnを効率的に実行する上で大きな課題となる。
さらに,既存の2次元画像のスパース加速技術は3次元点雲に変換されない。
本稿では,GPU上でのスパース畳み込み計算を高速化する高性能クラウド推論エンジンであるTorchSparseを紹介する。
TorchSparseはスパース畳み込みの2つのボトルネック、すなわち不規則な計算とデータ移動を直接最適化する。
適応行列乗算群を貿易計算に応用し、行列乗算を1.4-1.5倍高速化する。
また、ベクトル化、量子化、融合した局所的メモリアクセスを採用することでデータ移動を最適化し、メモリ移動コストを2.7倍削減する。
TorchSparseは3つのベンチマークデータセットで7つの代表的なモデルを評価し、最先端のMinkowskiEngineとSpConvでそれぞれ1.6倍と1.5倍のエンドツーエンドのスピードアップを達成した。
関連論文リスト
- TorchSparse++: Efficient Training and Inference Framework for Sparse
Convolution on GPUs [20.4238781638402]
スパース畳み込みは、AR/VRにおけるポイントクラウド処理、自動運転、レコメンデーションシステムにおけるグラフ理解など、新興ワークロードにおいて重要な役割を果たす。
既存のGPUライブラリはスパース畳み込みのための2つのデータフロー型を提供する。
TorchSparse++は、両方の世界のベストを達成するための新しいGPUライブラリです。
論文 参考訳(メタデータ) (2023-10-25T21:02:38Z) - SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。
私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文 参考訳(メタデータ) (2023-03-27T17:59:58Z) - Using a Waffle Iron for Automotive Point Cloud Semantic Segmentation [66.6890991207065]
スパース3D畳み込みは、ディープニューラルネットワークを構築するためのデファクトツールとなっている。
本稿では,スパース畳み込みを必要とせず,最先端の手法に到達できる方法を提案する。
このような性能のレベルは、大規模かつ高性能な3D知覚に相応しいツールに依存して達成可能であることを示す。
論文 参考訳(メタデータ) (2023-01-24T16:10:08Z) - FlatFormer: Flattened Window Attention for Efficient Point Cloud
Transformer [30.596658616831945]
トランスフォーマーはCNNに代わるものとして、多くのモダリティで有効であることが証明されている。
本稿では、FlatFormerを用いて、空間近接を交換することで、より優れた計算正則性を実現することにより、このレイテンシギャップを解消する。
論文 参考訳(メタデータ) (2023-01-20T18:59:57Z) - Efficient Quantized Sparse Matrix Operations on Tensor Cores [21.963041375857117]
本稿では,コア上の低精度整数のための高性能スパース行列ライブラリMagicubeを提案する。
我々はMagicubeが、スパースカーネルのベンダー最適化ライブラリ上で平均1.44倍(最大2.37倍)のスピードアップを実現し、エンドツーエンドのTransformer推論に匹敵する精度で最先端の1.43倍のスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2022-09-14T23:52:13Z) - BEVDetNet: Bird's Eye View LiDAR Point Cloud based Real-time 3D Object
Detection for Autonomous Driving [6.389322215324224]
キーポイント,ボックス予測,方向予測を用いたオブジェクト中心検出のための単一統一モデルとして,新しいセマンティックセマンティックセマンティクスアーキテクチャを提案する。
提案されたアーキテクチャは簡単に拡張でき、追加の計算なしで Road のようなセマンティックセグメンテーションクラスを含めることができる。
モデルは、KITTIデータセット上のIoU=0.5の平均精度で2%の最小精度の劣化で、他のトップ精度モデルよりも5倍高速です。
論文 参考訳(メタデータ) (2021-04-21T22:06:39Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Multi Projection Fusion for Real-time Semantic Segmentation of 3D LiDAR
Point Clouds [2.924868086534434]
本稿では,ポイントクラウドの複数のプロジェクションを利用する3次元ポイントクラウドセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のMulti-Projection Fusionフレームワークは、2つの異なる高効率2次元完全畳み込みモデルを用いて球面および鳥眼の視射影を解析する。
論文 参考訳(メタデータ) (2020-11-03T19:40:43Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。