論文の概要: Dense Voxel Fusion for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2203.00871v1
- Date: Wed, 2 Mar 2022 04:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 04:29:37.047565
- Title: Dense Voxel Fusion for 3D Object Detection
- Title(参考訳): 3次元物体検出のための高密度ボクセル融合
- Authors: Anas Mahmoud, Jordan S. K. Hu and Steven L. Waslander
- Abstract要約: ボクセル融合 (Voxel Fusion, DVF) は, 多スケール密度ボクセル特徴表現を生成する逐次融合法である。
地上の真理2Dバウンディングボックスラベルを直接トレーニングし、ノイズの多い検出器固有の2D予測を避けます。
提案したマルチモーダルトレーニング戦略は, 誤った2次元予測を用いたトレーニングに比べ, より一般化できることを示す。
- 参考スコア(独自算出の注目度): 10.717415797194896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera and LiDAR sensor modalities provide complementary appearance and
geometric information useful for detecting 3D objects for autonomous vehicle
applications. However, current fusion models underperform state-of-art
LiDAR-only methods on 3D object detection benchmarks. Our proposed solution,
Dense Voxel Fusion (DVF) is a sequential fusion method that generates
multi-scale multi-modal dense voxel feature representations, improving
expressiveness in low point density regions. To enhance multi-modal learning,
we train directly with ground truth 2D bounding box labels, avoiding noisy,
detector-specific, 2D predictions. Additionally, we use LiDAR ground truth
sampling to simulate missed 2D detections and to accelerate training
convergence. Both DVF and the multi-modal training approaches can be applied to
any voxel-based LiDAR backbone without introducing additional learnable
parameters. DVF outperforms existing sparse fusion detectors, ranking $1^{st}$
among all published fusion methods on KITTI's 3D car detection benchmark at the
time of submission and significantly improves 3D vehicle detection performance
of voxel-based methods on the Waymo Open Dataset. We also show that our
proposed multi-modal training strategy results in better generalization
compared to training using erroneous 2D predictions.
- Abstract(参考訳): カメラとLiDARセンサーは、自動運転車の3Dオブジェクトを検出するのに有用な相補的な外観と幾何学的情報を提供する。
しかし、現在の核融合モデルでは、3Dオブジェクト検出ベンチマーク上で最先端のLiDARのみの手法が実行されている。
提案手法である密度ボクセル融合(dvf)は,複数スケールの多モード密度ボクセル特徴表現を生成し,低点密度領域の表現性を向上させる逐次核融合手法である。
マルチモーダル学習を強化するため,本研究では,ノイズ,検出器固有の2次元予測を回避し,真理2次元境界ボックスラベルを直接訓練する。
さらに,2次元検出の欠如をシミュレートし,トレーニング収束を加速するために,LiDAR地中真実サンプリングを用いる。
DVFとマルチモーダルトレーニングアプローチは、任意のボクセルベースのLiDARバックボーンに、追加の学習可能なパラメータを導入することなく適用することができる。
dvfは、提案時点でkittiの3dカー検出ベンチマークで公開されたすべての核融合手法の中で、既存のスパース核融合検出器よりも優れており、waymo open dataset上のvoxelベースの方法の3d車両検出性能を大幅に改善している。
また,提案するマルチモーダルトレーニング戦略は,誤った2次元予測を用いたトレーニングと比較して,よりよい一般化をもたらすことを示す。
関連論文リスト
- Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。
提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。
推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文 参考訳(メタデータ) (2023-09-05T08:49:53Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Frustum Fusion: Pseudo-LiDAR and LiDAR Fusion for 3D Detection [0.0]
本稿では,立体対から得られる高精度な点雲と,密度が高いが精度の低い点雲を結合する新しいデータ融合アルゴリズムを提案する。
我々は複数の3次元物体検出法を訓練し、核融合戦略が検出器の性能を継続的に改善することを示す。
論文 参考訳(メタデータ) (2021-11-08T19:29:59Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。