論文の概要: A Unified Voxel Diffusion Module for Point Cloud 3D Object Detection
- arxiv url: http://arxiv.org/abs/2508.16069v1
- Date: Fri, 22 Aug 2025 03:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.241987
- Title: A Unified Voxel Diffusion Module for Point Cloud 3D Object Detection
- Title(参考訳): 点雲3次元物体検出のための統一ボクセル拡散モジュール
- Authors: Qifeng Liu, Dawei Zhao, Yabo Dong, Linzhi Shang, Liang Xiao, Juan Wang, Kunkong Zhao, Dongming Lu, Qi Zhu,
- Abstract要約: Voxel Diffusion Module (VDM) はスパース3D畳み込み、サブマニフォールドスパース畳み込み、残余接続からなる。
VDMは,(1)空間的文脈を豊かにするスパース3D畳み込みによる前景のボクセル特徴の拡散,(2)微細な空間情報を集約してボクセルワイド特徴表現を強化する,という2つの主要な機能を提供している。
- 参考スコア(独自算出の注目度): 22.795672455472612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in point cloud object detection have increasingly adopted Transformer-based and State Space Models (SSMs), demonstrating strong performance. However, voxelbased representations in these models require strict consistency in input and output dimensions due to their serialized processing, which limits the spatial diffusion capability typically offered by convolutional operations. This limitation significantly affects detection accuracy. Inspired by CNN-based object detection architectures, we propose a novel Voxel Diffusion Module (VDM) to enhance voxel-level representation and diffusion in point cloud data. VDM is composed of sparse 3D convolutions, submanifold sparse convolutions, and residual connections. To ensure computational efficiency, the output feature maps are downsampled to one-fourth of the original input resolution. VDM serves two primary functions: (1) diffusing foreground voxel features through sparse 3D convolutions to enrich spatial context, and (2) aggregating fine-grained spatial information to strengthen voxelwise feature representation. The enhanced voxel features produced by VDM can be seamlessly integrated into mainstream Transformer- or SSM-based detection models for accurate object classification and localization, highlighting the generalizability of our method. We evaluate VDM on several benchmark datasets by embedding it into both Transformerbased and SSM-based models. Experimental results show that our approach consistently improves detection accuracy over baseline models. Specifically, VDM-SSMs achieve 74.7 mAPH (L2) on Waymo, 72.9 NDS on nuScenes, 42.3 mAP on Argoverse 2, and 67.6 mAP on ONCE, setting new stateof-the-art performance across all datasets. Our code will be made publicly available.
- Abstract(参考訳): ポイントクラウドオブジェクト検出の最近の進歩は、Transformer-basedとState Space Models (SSM)の採用が増加しており、高いパフォーマンスを示している。
しかしながら、これらのモデルにおけるボクセルベースの表現は、直列化処理による入力次元と出力次元の厳密な整合性を必要とし、畳み込み演算によって提供される空間拡散能力を制限する。
この制限は検出精度に大きな影響を及ぼす。
CNNに基づくオブジェクト検出アーキテクチャに着想を得て,Voxel Diffusion Module (VDM) を提案する。
VDMはスパース3D畳み込み、サブマニフォールドスパース畳み込み、残余接続からなる。
計算効率を確保するため、出力特徴写像は元の入力解像度の4分の1にダウンサンプリングされる。
VDMは,(1)空間的文脈を豊かにするスパース3D畳み込みによる前景のボクセル特徴の拡散,(2)微細な空間情報を集約してボクセルワイド特徴表現を強化する,という2つの主要な機能を提供している。
VDMによって生成された拡張ボクセル機能は、精度の高いオブジェクト分類とローカライゼーションのために、メインストリームのTransformerまたはSSMベースの検出モデルにシームレスに統合することができ、本手法の一般化性を強調している。
我々は、TransformerベースのモデルとSSMベースのモデルの両方に組み込むことで、いくつかのベンチマークデータセット上でVDMを評価する。
実験結果から,本手法はベースラインモデルよりも検出精度を常に向上することが示された。
具体的には、VDM-SSMはWaymoで74.7 mAPH (L2)、nuScenesで72.9 NDS、Argoverse 2で42.3 mAP、OnCEで67.6 mAPを達成し、すべてのデータセットで新しい最先端のパフォーマンスを設定できる。
私たちのコードは公開されます。
関連論文リスト
- NexViTAD: Few-shot Unsupervised Cross-Domain Defect Detection via Vision Foundation Models and Multi-Task Learning [1.7603474309877931]
NexViTADは、視覚基盤モデルに基づくクロスドメイン異常検出フレームワークである。
産業的異常検出における領域シフト問題に、革新的な共有部分空間投影機構を通じて対処する。
AUCは97.5%、APは70.4%、PRは95.2%である。
論文 参考訳(メタデータ) (2025-07-10T09:29:26Z) - State Space Model Meets Transformer: A New Paradigm for 3D Object Detection [33.49952392298874]
インタラクティブなSTate空間モデル(DEST)を用いた新しい3次元オブジェクト検出パラダイムを提案する。
対話型SSMでは,3次元屋内検出タスクにおいて,システム状態が効率的にクエリとして機能する新しい状態依存型SSMパラメータ化法を設計する。
ScanNet V2 と SUN RGB-D データセットの AP50 で GroupFree のベースラインを改善する。
論文 参考訳(メタデータ) (2025-03-18T17:58:03Z) - Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。
EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。
ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文 参考訳(メタデータ) (2024-11-05T02:33:25Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection [59.34834815090167]
3Dボクセルをシリアライズして複数のシーケンスにグループ化し、トランスフォーマーに入力するシリアライズベースの手法は、3Dオブジェクト検出においてその効果を実証している。
グループフリー戦略を用いて、ボクセルの全空間を1つのシーケンスにシリアライズするVoxel SSMを提案する。
論文 参考訳(メタデータ) (2024-06-15T17:45:07Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。