論文の概要: DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets
- arxiv url: http://arxiv.org/abs/2301.06051v1
- Date: Sun, 15 Jan 2023 09:31:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 17:30:28.495503
- Title: DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets
- Title(参考訳): dsvt:回転セットを有する動的スパースボクセル変圧器
- Authors: Haiyang Wang, Chen Shi, Shaoshuai Shi, Meng Lei, Sen Wang, Di He,
Bernt Schiele, Liwei Wang
- Abstract要約: 本研究では,屋外3次元物体検出のためのシングルストライドウィンドウベースのボクセルトランスバータであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
並列にスパースポイントを効率よく処理するため,各ウィンドウ内の複数の局所領域を間隔に応じて分割し,全領域の特徴を並列に計算する動的スパースウィンドウアテンションを提案する。
- 参考スコア(独自算出の注目度): 95.84755169585492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing an efficient yet deployment-friendly 3D backbone to handle sparse
point clouds is a fundamental problem in 3D object detection. Compared with the
customized sparse convolution, the attention mechanism in Transformers is more
appropriate for flexibly modeling long-range relationships and is easier to be
deployed in real-world applications. However, due to the sparse characteristics
of point clouds, it is non-trivial to apply a standard transformer on sparse
points. In this paper, we present Dynamic Sparse Voxel Transformer (DSVT), a
single-stride window-based voxel Transformer backbone for outdoor 3D object
detection. In order to efficiently process sparse points in parallel, we
propose Dynamic Sparse Window Attention, which partitions a series of local
regions in each window according to its sparsity and then computes the features
of all regions in a fully parallel manner. To allow the cross-set connection,
we design a rotated set partitioning strategy that alternates between two
partitioning configurations in consecutive self-attention layers. To support
effective downsampling and better encode geometric information, we also propose
an attention-style 3D pooling module on sparse points, which is powerful and
deployment-friendly without utilizing any customized CUDA operations. Our model
achieves state-of-the-art performance on large-scale Waymo Open Dataset with
remarkable gains. More importantly, DSVT can be easily deployed by TensorRT
with real-time inference speed (27Hz). Code will be available at
\url{https://github.com/Haiyang-W/DSVT}.
- Abstract(参考訳): スパースポイントクラウドを扱うために効率的だがデプロイしやすい3Dバックボーンを設計することは、3Dオブジェクト検出の根本的な問題である。
カスタマイズされたスパース畳み込みと比較して、トランスフォーマーのアテンションメカニズムは長距離関係を柔軟にモデル化するのに適しており、現実世界のアプリケーションでデプロイするのが容易である。
しかし、点雲のスパース特性のため、スパース点に標準変圧器を適用することは自明ではない。
本稿では,屋外3次元物体検出のためのシングルストライドウィンドウベースのボクセルトランスバータであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
スパースポイントを効率よく並列に処理するために,各ウィンドウ内の複数のローカル領域を間隔に応じて分割し,全領域の特徴を並列に計算する動的スパースウィンドウアテンションを提案する。
クロスセット接続を実現するために、連続的な自己アテンション層における2つのパーティショニング構成を交互に切り替える回転セット分割戦略を設計する。
また,効率的なダウンサンプリングと幾何学的情報のエンコード化を支援するため,カスタマイズしたCUDA操作を使わずに,より強力で展開しやすい3Dプールモジュールを提案する。
我々のモデルは、大規模Waymo Open Datasetにおける最先端のパフォーマンスを著しく向上させる。
さらに、DSVTはリアルタイム推論速度(27Hz)でTensorRTで簡単にデプロイできる。
コードは \url{https://github.com/Haiyang-W/DSVT} で入手できる。
関連論文リスト
- UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - No Pain, Big Gain: Classify Dynamic Point Cloud Sequences with Static
Models by Fitting Feature-level Space-time Surfaces [46.8891422128]
本研究では,キネマティックスにインスパイアされたニューラルネットワーク(Kinet)を提案する。
Kinetは、機能レベルのダイナミクスを暗黙的にエンコードし、静的ポイントクラウド処理に成熟したバックボーンを使用することで利点を得る。
キネは320万のパラメータと10.35G FLOPSしか持たないMSRAction-3Dで93.27%の精度を達成した。
論文 参考訳(メタデータ) (2022-03-21T16:41:35Z) - CpT: Convolutional Point Transformer for 3D Point Cloud Processing [10.389972581905]
CpT: Convolutional Point Transformer - 3Dポイントクラウドデータの非構造化の性質を扱うための新しいディープラーニングアーキテクチャ。
CpTは、既存の注目ベースのConvolutions Neural Networksと、以前の3Dポイントクラウド処理トランスフォーマーの改善である。
我々のモデルは、既存の最先端のアプローチと比較して、様々なポイントクラウド処理タスクの効果的なバックボーンとして機能する。
論文 参考訳(メタデータ) (2021-11-21T17:45:55Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - DV-ConvNet: Fully Convolutional Deep Learning on Point Clouds with
Dynamic Voxelization and 3D Group Convolution [0.7340017786387767]
3次元点雲の解釈は、成分点のランダム性と空間性のために難しい課題である。
本研究では,効率的な3Dポイントクラウド解釈に向けて,標準的な3Dコンボリューションに注意を向ける。
我々のネットワークは、非常に高速に動作し、収束することができるが、いくつかのベンチマークデータセットの最先端の手法と比較して、オンパーまたはさらにパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-09-07T07:45:05Z) - FPConv: Learning Local Flattening for Point Convolution [64.01196188303483]
FPConvは3次元点雲解析のために設計された新しい表面形状の畳み込み演算子である。
従来の方法とは異なり、FPConvは3Dグリッドやグラフのような中間表現への変換を必要としない。
FPConvは3Dオブジェクト分類や3Dシーンセグメンテーションといったタスクのために、様々なネットワークアーキテクチャに簡単に統合できる。
論文 参考訳(メタデータ) (2020-02-25T07:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。