論文の概要: NV3D: Leveraging Spatial Shape Through Normal Vector-based 3D Object Detection
- arxiv url: http://arxiv.org/abs/2510.11632v1
- Date: Mon, 13 Oct 2025 17:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.473955
- Title: NV3D: Leveraging Spatial Shape Through Normal Vector-based 3D Object Detection
- Title(参考訳): NV3D:通常のベクトルに基づく3次元物体検出による空間形状のレバレッジ
- Authors: Krittin Chaowakarn, Paramin Sangwongngam, Nang Htet Htet Aung, Chalie Charoenlarpnopparut,
- Abstract要約: 本稿では, ボクセル近傍から取得した局所的特徴を, ボクセルベース毎の正規ベクトルとして利用する新しいモデルNV3Dを提案する。
この情報的特徴により、NV3Dは、車、歩行者、サイクリストを含む、表面と関連するターゲットエンティティの関係を決定できる。
提案手法は,KITTIデータセットを用いて学習し,車と自転車の空間形状による検出において優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies in 3D object detection for autonomous vehicles aim to enrich features through the utilization of multi-modal setups or the extraction of local patterns within LiDAR point clouds. However, multi-modal methods face significant challenges in feature alignment, and gaining features locally can be oversimplified for complex 3D object detection tasks. In this paper, we propose a novel model, NV3D, which utilizes local features acquired from voxel neighbors, as normal vectors computed per voxel basis using K-nearest neighbors (KNN) and principal component analysis (PCA). This informative feature enables NV3D to determine the relationship between the surface and pertinent target entities, including cars, pedestrians, or cyclists. During the normal vector extraction process, NV3D offers two distinct sampling strategies: normal vector density-based sampling and FOV-aware bin-based sampling, allowing elimination of up to 55% of data while maintaining performance. In addition, we applied element-wise attention fusion, which accepts voxel features as the query and value and normal vector features as the key, similar to the attention mechanism. Our method is trained on the KITTI dataset and has demonstrated superior performance in car and cyclist detection owing to their spatial shapes. In the validation set, NV3D without sampling achieves 86.60% and 80.18% mean Average Precision (mAP), greater than the baseline Voxel R-CNN by 2.61% and 4.23% mAP, respectively. With both samplings, NV3D achieves 85.54% mAP in car detection, exceeding the baseline by 1.56% mAP, despite roughly 55% of voxels being filtered out.
- Abstract(参考訳): 自動運転車の3次元物体検出における最近の研究は、マルチモーダル設定の利用やLiDAR点雲内の局所パターンの抽出により、特徴を豊かにすることを目的としている。
しかし,マルチモーダル手法は機能アライメントにおいて重大な課題に直面しており,複雑な3次元オブジェクト検出タスクにおいて,局所的な特徴の獲得を過度に単純化することができる。
本稿では, K-nearest neighbors (KNN) と主成分分析 (PCA) を用いて, ボクセルベース毎の正規ベクトルとして, ボクセル近傍から取得した局所的特徴を利用する新しいモデル NV3D を提案する。
この情報的特徴により、NV3Dは、車、歩行者、サイクリストを含む、表面と関連するターゲットエンティティの関係を決定できる。
通常のベクトル抽出プロセスの間、NV3Dは通常のベクトル密度に基づくサンプリングとFOV対応のビンベースのサンプリングという2つの異なるサンプリング戦略を提供し、パフォーマンスを維持しながら最大55%のデータを取り除くことができる。
さらに,Voxelの特徴をキーワードとして受け入れる要素ワイドアテンションフュージョンを適用し,アテンション機構と同様,通常のベクトル特徴をキーとする。
提案手法は,KITTIデータセットを用いて学習し,車と自転車の空間形状による検出において優れた性能を示した。
検証セットでは、サンプリング無しのNV3Dは平均精度(mAP)が86.60%、平均精度(mAP)が80.18%、ベースラインのVoxel R-CNNが2.61%、MAPが4.23%である。
両方のサンプリングにより、NV3Dは85.54%のmAPを自動車検出で達成し、約55%のボクセルが除去されているにもかかわらず、ベースラインを1.56%以上上回っている。
関連論文リスト
- V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - Shape Prior Non-Uniform Sampling Guided Real-time Stereo 3D Object
Detection [59.765645791588454]
最近導入されたRTS3Dは、深度監督のないオブジェクトの中間表現のための効率的な4次元特徴整合埋め込み空間を構築している。
本研究では, 内部領域で高密度サンプリングを行い, 内部領域でスパースサンプリングを行う非一様サンプリング方式を提案する。
提案手法は,ネットワークパラメータをほとんど含まないAP3dに対して2.57%の改善を実現している。
論文 参考訳(メタデータ) (2021-06-18T09:14:55Z) - High-level camera-LiDAR fusion for 3D object detection with machine
learning [0.0]
本稿では,自律運転などの応用において重要な3次元物体検出問題に取り組む。
モノクロカメラとLiDARデータを組み合わせた機械学習パイプラインを使用して、動くプラットフォームの周囲の3D空間内の車両を検出する。
本結果は,検証セットに対して効率よく精度の高い推定を行い,全体の精度は87.1%となった。
論文 参考訳(メタデータ) (2021-05-24T01:57:34Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection [99.16162624992424]
Voxel R-CNNというシンプルで効果的なVoxelベースのフレームワークを考案しました。
2段階のアプローチでボクセルの特徴をフル活用することにより,最先端の点ベースモデルと同等の精度で検出できる。
その結果、Voxel R-CNNは、NVIDIA 2080 Ti GPU上での25 FPSの速度で、リアルタイムフレーム処理速度を維持しながら、より高い検出精度を提供する。
論文 参考訳(メタデータ) (2020-12-31T17:02:46Z) - Dynamic Edge Weights in Graph Neural Networks for 3D Object Detection [0.0]
本稿では,LiDARスキャンにおける物体検出のためのグラフニューラルネットワーク(GNN)における注目に基づく特徴集約手法を提案する。
GNNの各層では、ノードごとの入力特徴を対応する上位特徴にマッピングする線形変換とは別に、ノードごとの注意を隠蔽する。
KITTIデータセットを用いた実験により,本手法は3次元物体検出に匹敵する結果が得られることが示された。
論文 参考訳(メタデータ) (2020-09-17T12:56:17Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。