論文の概要: CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2009.00784v1
- Date: Wed, 2 Sep 2020 02:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 19:10:06.095415
- Title: CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection
- Title(参考訳): CLOCs: 3Dオブジェクト検出のためのカメラLiDARオブジェクトの融合
- Authors: Su Pang, Daniel Morris, Hayder Radha
- Abstract要約: CLOC(Camera-LiDAR Object Candidates)融合ネットワークを提案する。
CLOCs融合は低複雑さのマルチモーダル核融合フレームワークを提供する。
CLOCは、公式のKITTIリーダーボードにおいて、全ての核融合法の中で最高であることを示す。
- 参考スコア(独自算出の注目度): 13.986963122264633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been significant advances in neural networks for both 3D object
detection using LiDAR and 2D object detection using video. However, it has been
surprisingly difficult to train networks to effectively use both modalities in
a way that demonstrates gain over single-modality networks. In this paper, we
propose a novel Camera-LiDAR Object Candidates (CLOCs) fusion network. CLOCs
fusion provides a low-complexity multi-modal fusion framework that
significantly improves the performance of single-modality detectors. CLOCs
operates on the combined output candidates before Non-Maximum Suppression (NMS)
of any 2D and any 3D detector, and is trained to leverage their geometric and
semantic consistencies to produce more accurate final 3D and 2D detection
results. Our experimental evaluation on the challenging KITTI object detection
benchmark, including 3D and bird's eye view metrics, shows significant
improvements, especially at long distance, over the state-of-the-art fusion
based methods. At time of submission, CLOCs ranks the highest among all the
fusion-based methods in the official KITTI leaderboard. We will release our
code upon acceptance.
- Abstract(参考訳): LiDARを用いた3Dオブジェクト検出とビデオによる2Dオブジェクト検出の両方において、ニューラルネットワークは大幅に進歩している。
しかし、単一モダリティネットワークの利得を示す方法で両方のモダリティを効果的に使用するようにネットワークを訓練することは驚くほど困難であった。
本稿では,新しいカメラ-LiDARオブジェクト候補(CLOC)融合ネットワークを提案する。
CLOCs融合は、単一モード検出器の性能を著しく向上させる低複雑さ多モード融合フレームワークを提供する。
CLOCは、任意の2Dおよび任意の3D検出器の非最大抑圧(NMS)の前に出力候補を組み合わせて動作し、幾何学的および意味的な組み合わせを活用してより正確な最終3Dおよび2D検出結果を生成するように訓練されている。
3Dおよび鳥の目視測定値を含むKITTIオブジェクト検出ベンチマークの実験的評価は、最先端の融合法に比べて、特に遠距離での顕著な改善を示している。
提出時点では、CLOCは公式のKITTIのリーダーボードにおいて、核融合ベースの手法の中で最高である。
私たちは受け入れ次第コードを公開します。
関連論文リスト
- Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - MSF3DDETR: Multi-Sensor Fusion 3D Detection Transformer for Autonomous
Driving [0.0]
MSF3DDETR: 画像とLiDAR機能を融合して検出精度を向上させるマルチセンサフュージョン3D検出変換器アーキテクチャを提案する。
我々のエンドツーエンドのシングルステージ、アンカーフリー、NMSフリーネットワークは、マルチビューイメージとLiDARポイントクラウドを取り込み、3Dバウンディングボックスを予測する。
MSF3DDETRネットワークは、DeTRにインスパイアされたハンガリーのアルゴリズムに基づくバイパーティイトマッチングとセット・ツー・セット・ロスを使用して、nuScenesデータセット上でエンドツーエンドにトレーニングされている。
論文 参考訳(メタデータ) (2022-10-27T10:55:15Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - Deep Continuous Fusion for Multi-Sensor 3D Object Detection [103.5060007382646]
本稿では,LIDARとカメラを併用して高精度な位置検出を実現する3Dオブジェクト検出器を提案する。
我々は,連続畳み込みを利用して画像とlidar特徴マップを異なるレベルの解像度で融合する,エンドツーエンド学習可能なアーキテクチャを設計した。
論文 参考訳(メタデータ) (2020-12-20T18:43:41Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。