論文の概要: GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates
- arxiv url: http://arxiv.org/abs/2303.09800v1
- Date: Fri, 17 Mar 2023 07:05:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 15:20:43.547676
- Title: GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates
- Title(参考訳): GOOD:LiDAR-Camera Object Candidatesによる3Dオブジェクト検出のための汎用最適化ベースフュージョン
- Authors: Bingqi Shen, Shuwei Dai, Yuyin Chen, Rong Xiong, Yue Wang, and Yanmei
Jiao
- Abstract要約: 3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
- 参考スコア(独自算出の注目度): 10.534984939225014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection serves as the core basis of the perception tasks in
autonomous driving. Recent years have seen the rapid progress of multi-modal
fusion strategies for more robust and accurate 3D object detection. However,
current researches for robust fusion are all learning-based frameworks, which
demand a large amount of training data and are inconvenient to implement in new
scenes. In this paper, we propose GOOD, a general optimization-based fusion
framework that can achieve satisfying detection without training additional
models and is available for any combinations of 2D and 3D detectors to improve
the accuracy and robustness of 3D detection. First we apply the mutual-sided
nearest-neighbor probability model to achieve the 3D-2D data association. Then
we design an optimization pipeline that can optimize different kinds of
instances separately based on the matching result. Apart from this, the 3D MOT
method is also introduced to enhance the performance aided by previous frames.
To the best of our knowledge, this is the first optimization-based late fusion
framework for multi-modal 3D object detection which can be served as a baseline
for subsequent research. Experiments on both nuScenes and KITTI datasets are
carried out and the results show that GOOD outperforms by 9.1\% on mAP score
compared with PointPillars and achieves competitive results with the
learning-based late fusion CLOCs.
- Abstract(参考訳): 3dオブジェクト検出は、自動運転における知覚タスクの中核となる。
近年、より堅牢で正確な3次元物体検出のためのマルチモーダル融合戦略が急速に進展している。
しかしながら、ロバスト融合に関する現在の研究は、すべて学習ベースのフレームワークであり、大量のトレーニングデータを必要とし、新しい場面で実装するのは不便である。
本稿では,3次元検出の精度とロバスト性を向上させるため,3次元検出器と2次元検出器の組み合わせのいずれにも適用可能な,汎用的な最適化ベース融合フレームワークGOODを提案する。
まず、3D-2Dデータアソシエーションを実現するために、相互側近近傍確率モデルを適用する。
そして、マッチング結果に基づいて異なる種類のインスタンスを個別に最適化できる最適化パイプラインを設計する。
これとは別に、3D MOT法も導入され、以前のフレームによる性能向上が図られている。
我々の知る限り、これはマルチモーダル3Dオブジェクト検出のための最初の最適化ベースのレイトフュージョンフレームワークであり、その後の研究のベースラインとして機能する。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1\%向上し、学習ベースの後期融合CLOCと競合する結果が得られた。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D
Object Detection [17.526914782562528]
我々はAutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。
我々の最良のモデルは、nuScenesテストのリーダーボード上で72.4 NDSに達し、新しい最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T06:17:23Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Dense Voxel Fusion for 3D Object Detection [10.717415797194896]
ボクセル融合 (Voxel Fusion, DVF) は, 多スケール密度ボクセル特徴表現を生成する逐次融合法である。
地上の真理2Dバウンディングボックスラベルを直接トレーニングし、ノイズの多い検出器固有の2D予測を避けます。
提案したマルチモーダルトレーニング戦略は, 誤った2次元予測を用いたトレーニングに比べ, より一般化できることを示す。
論文 参考訳(メタデータ) (2022-03-02T04:51:31Z) - Joint Multi-Object Detection and Tracking with Camera-LiDAR Fusion for
Autonomous Driving [6.396288020763144]
カメラとLiDARの融合による多対象追跡(MOT)は、オブジェクト検出、親和性計算、データ関連の正確な結果をリアルタイムに要求する。
本稿では、オンライン共同検出・追跡手法と自律運転用ロバストデータアソシエーションを備えた効率的なマルチモーダルMOTフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-10T11:17:05Z) - Deep Continuous Fusion for Multi-Sensor 3D Object Detection [103.5060007382646]
本稿では,LIDARとカメラを併用して高精度な位置検出を実現する3Dオブジェクト検出器を提案する。
我々は,連続畳み込みを利用して画像とlidar特徴マップを異なるレベルの解像度で融合する,エンドツーエンド学習可能なアーキテクチャを設計した。
論文 参考訳(メタデータ) (2020-12-20T18:43:41Z) - CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection [13.986963122264633]
CLOC(Camera-LiDAR Object Candidates)融合ネットワークを提案する。
CLOCs融合は低複雑さのマルチモーダル核融合フレームワークを提供する。
CLOCは、公式のKITTIリーダーボードにおいて、全ての核融合法の中で最高であることを示す。
論文 参考訳(メタデータ) (2020-09-02T02:07:00Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - Improving 3D Object Detection through Progressive Population Based
Augmentation [91.56261177665762]
本稿では3次元オブジェクト検出のためのデータ拡張ポリシーの設計を自動化するための最初の試みを示す。
このアルゴリズムは,探索空間を狭め,過去の反復で発見された最良のパラメータを採用することで,拡張戦略の最適化を学習する。
PPBAは, 拡張のないベースライン3次元検出モデルよりも最大10倍のデータ効率が高く, ラベル付きモデルよりもはるかに少ない精度で3次元検出モデルが競合精度を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-04-02T05:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。