論文の概要: Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from
Point Clouds
- arxiv url: http://arxiv.org/abs/2203.10314v1
- Date: Sat, 19 Mar 2022 12:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 19:53:40.631009
- Title: Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from
Point Clouds
- Title(参考訳): voxel set transformer:ポイントクラウドからの3dオブジェクト検出のためのセット・ツー・セットアプローチ
- Authors: Chenhang He, Ruihuang Li, Shuai Li and Lei Zhang
- Abstract要約: Transformerは多くの2次元視覚タスクで有望なパフォーマンスを示した。
ポイントクラウドは長いシーケンスであり、3D空間に不均一に分散しているため、大規模なポイントクラウドデータの自己アテンションを計算するのは困難である。
既存の方法は、通常、ポイントを同じ大きさのクラスタにグループ化したり、離散化された表現に対して畳み込み的な自己アテンションを実行することによって、自己アテンションを局所的に計算する。
本稿では,Voxel Set Transformer (VoxSeT) と呼ばれる新しいボクセルベースアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 16.69887974230884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer has demonstrated promising performance in many 2D vision tasks.
However, it is cumbersome to compute the self-attention on large-scale point
cloud data because point cloud is a long sequence and unevenly distributed in
3D space. To solve this issue, existing methods usually compute self-attention
locally by grouping the points into clusters of the same size, or perform
convolutional self-attention on a discretized representation. However, the
former results in stochastic point dropout, while the latter typically has
narrow attention fields. In this paper, we propose a novel voxel-based
architecture, namely Voxel Set Transformer (VoxSeT), to detect 3D objects from
point clouds by means of set-to-set translation. VoxSeT is built upon a
voxel-based set attention (VSA) module, which reduces the self-attention in
each voxel by two cross-attentions and models features in a hidden space
induced by a group of latent codes. With the VSA module, VoxSeT can manage
voxelized point clusters with arbitrary size in a wide range, and process them
in parallel with linear complexity. The proposed VoxSeT integrates the high
performance of transformer with the efficiency of voxel-based model, which can
be used as a good alternative to the convolutional and point-based backbones.
VoxSeT reports competitive results on the KITTI and Waymo detection benchmarks.
The source codes can be found at \url{https://github.com/skyhehe123/VoxSeT}.
- Abstract(参考訳): Transformerは多くの2次元視覚タスクで有望なパフォーマンスを示した。
しかし、ポイントクラウドは長いシーケンスであり、3D空間に不均一に分散するため、大規模なポイントクラウドデータの自己注意を計算するのは困難である。
この問題を解決するために、既存の手法は通常、ポイントを同じ大きさのクラスタにグループ化したり、離散化された表現で畳み込み自己アテンションを実行することで、局所的に自己アテンションを計算する。
しかしながら、前者は確率的な点降下が起こり、後者は典型的には注意場が狭い。
本稿では,点群から3dオブジェクトをセット・ツー・セット変換により検出する,voxel set transformer (voxset) という新しいvoxelベースのアーキテクチャを提案する。
VoxSeT はvoxel-based set attention (VSA) モジュール上に構築されており、各voxel の自己注意を2つのクロスアテンションと、潜伏符号のグループによって誘導される隠れ空間のモデルにより低減する。
vsaモジュールを使用すると、voxsetは任意のサイズのvoxelized pointクラスタを幅広い範囲で管理し、線形複雑性と並行して処理することができる。
提案するvoxsetは、畳み込みおよびポイントベースバックボーンの優れた代替手段として使用できるvoxelベースのモデルの効率と、トランスフォーマーの高性能を統合したものである。
VoxSeTは、KITTIとWaymo検出ベンチマークで競合する結果を報告している。
ソースコードは \url{https://github.com/skyhehe123/VoxSeT} にある。
関連論文リスト
- Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection [59.34834815090167]
3Dボクセルをシリアライズして複数のシーケンスにグループ化し、トランスフォーマーに入力するシリアライズベースの手法は、3Dオブジェクト検出においてその効果を実証している。
グループフリー戦略を用いて、ボクセルの全空間を1つのシーケンスにシリアライズするVoxel SSMを提案する。
論文 参考訳(メタデータ) (2024-06-15T17:45:07Z) - MsSVT++: Mixed-scale Sparse Voxel Transformer with Center Voting for 3D
Object Detection [19.8309983660935]
MsSVT++は、Mixed-scale Sparse Voxel Transformerである。
両タイプの情報を、分割・コンカレントアプローチで同時にキャプチャする。
MsSVT++は、さまざまなデータセット間で一貫して例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-01-22T06:42:23Z) - PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer [75.2251801053839]
単段3次元検出用ポイント・ボクセル変換器(PVT-SSD)を提案する。
本稿では,voxel から長時間のコンテキストを安価に取得できる Point-Voxel Transformer (PVT) モジュールを提案する。
いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2023-05-11T07:37:15Z) - Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection [49.324070632356296]
我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
論文 参考訳(メタデータ) (2023-04-06T05:00:58Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z) - RPVNet: A Deep and Efficient Range-Point-Voxel Fusion Network for LiDAR
Point Cloud Segmentation [28.494690309193068]
RPVNetと呼ばれる、新しいレンジポイント・ボクセル融合ネットワークを提案する。
このネットワークでは,これら3つの視点を相互に相互に相互作用する深層融合フレームワークを考案する。
この効率的な相互作用と比較的低いボクセル解像度を利用することで、より効率的であることが証明された。
論文 参考訳(メタデータ) (2021-03-24T04:24:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。