論文の概要: SparseVoxFormer: Sparse Voxel-based Transformer for Multi-modal 3D Object Detection
- arxiv url: http://arxiv.org/abs/2503.08092v1
- Date: Tue, 11 Mar 2025 06:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:43:41.532295
- Title: SparseVoxFormer: Sparse Voxel-based Transformer for Multi-modal 3D Object Detection
- Title(参考訳): SparseVoxFormer:マルチモーダル3Dオブジェクト検出のためのスパースVoxelベースのトランス
- Authors: Hyeongseok Son, Jia He, Seung-In Park, Ying Min, Yunhao Zhang, ByungIn Yoo,
- Abstract要約: 従来の3Dオブジェクト検出手法では,Bird's Eye View (BEV) 空間を中間特徴表現として用いた。
本稿では,LiDAR点クラウドデータのスパース性に着目した。
SparseVoxFormerと呼ばれる3次元オブジェクト検出のための新しいスパースボクセルベースのトランスフォーマーネットワークを導入する。
- 参考スコア(独自算出の注目度): 12.941263635455915
- License:
- Abstract: Most previous 3D object detection methods that leverage the multi-modality of LiDAR and cameras utilize the Bird's Eye View (BEV) space for intermediate feature representation. However, this space uses a low x, y-resolution and sacrifices z-axis information to reduce the overall feature resolution, which may result in declined accuracy. To tackle the problem of using low-resolution features, this paper focuses on the sparse nature of LiDAR point cloud data. From our observation, the number of occupied cells in the 3D voxels constructed from a LiDAR data can be even fewer than the number of total cells in the BEV map, despite the voxels' significantly higher resolution. Based on this, we introduce a novel sparse voxel-based transformer network for 3D object detection, dubbed as SparseVoxFormer. Instead of performing BEV feature extraction, we directly leverage sparse voxel features as the input for a transformer-based detector. Moreover, with regard to the camera modality, we introduce an explicit modality fusion approach that involves projecting 3D voxel coordinates onto 2D images and collecting the corresponding image features. Thanks to these components, our approach can leverage geometrically richer multi-modal features while even reducing the computational cost. Beyond the proof-of-concept level, we further focus on facilitating better multi-modal fusion and flexible control over the number of sparse features. Finally, thorough experimental results demonstrate that utilizing a significantly smaller number of sparse features drastically reduces computational costs in a 3D object detector while enhancing both overall and long-range performance.
- Abstract(参考訳): LiDARとカメラのマルチモダリティを利用する従来の3Dオブジェクト検出手法は、中間特徴表現にBird's Eye View (BEV)空間を使用する。
しかし、この空間は低 x, y 分解能を使用し、z軸情報を犠牲にして全体の特徴分解能を減少させ、その結果精度が低下する可能性がある。
そこで本研究では,LiDAR点クラウドデータのスパースな性質に着目した。
以上の結果から,LiDARデータから構築した3Dボクセルの占有細胞数は,BEVマップの総細胞数よりさらに少ないが,ボクセルの分解能は著しく高かった。
そこで本研究では,SparseVoxFormerと呼ばれる3次元オブジェクト検出のための,新しいスパースボクセルベースのトランスフォーマーネットワークを提案する。
BEVの特徴抽出を行う代わりに、トランスを用いた検出器の入力としてスパースボクセル特性を直接活用する。
さらに、カメラのモダリティに関して、3次元ボクセル座標を2次元画像に投影し、対応する画像の特徴を収集する明示的なモダリティ融合手法を導入する。
これらのコンポーネントのおかげで,計算コストを削減しつつ,幾何的にリッチなマルチモーダル特徴を活用できる。
概念実証のレベルを超えて、我々はより優れたマルチモーダル融合とスパース機能の柔軟な制御を促進することに重点を置いている。
最後に、3次元物体検出器の計算コストを大幅に削減し、全体的な性能と長距離性能の両立を図った。
関連論文リスト
- VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - VoxelNextFusion: A Simple, Unified and Effective Voxel Fusion Framework for Multi-Modal 3D Object Detection [31.86570390577113]
既存のボクセル法は、1対1で濃密な画像特徴を持つスパース・ボクセル特徴を融合する際の課題に直面する。
本稿では,VoxelNextFusionについて述べる。VoxelNextFusionは,Voxelベースの手法に特化して設計されたマルチモーダル3Dオブジェクト検出フレームワークである。
論文 参考訳(メタデータ) (2024-01-05T08:10:49Z) - VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection [3.5259183508202976]
本稿では,カメラ画像を用いた仮想LiDAR点の生成を含む革新的なアプローチを提案する。
また、画像ベースセグメンテーションネットワークから得られる意味ラベルを用いて、これらの仮想点を強化する。
このアプローチは、様々な3Dフレームワークと2Dセマンティックセグメンテーションメソッドにシームレスに統合できる汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-26T18:03:05Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。