論文の概要: Multi-Modal 3D Object Detection by Box Matching
- arxiv url: http://arxiv.org/abs/2305.07713v1
- Date: Fri, 12 May 2023 18:08:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 20:05:51.245146
- Title: Multi-Modal 3D Object Detection by Box Matching
- Title(参考訳): ボックスマッチングによるマルチモーダル3次元物体検出
- Authors: Zhe Liu, Xiaoqing Ye, Zhikang Zou, Xinwei He, Xiao Tan, Errui Ding,
Jingdong Wang, Xiang Bai
- Abstract要約: マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
- 参考スコア(独自算出の注目度): 109.43430123791684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal 3D object detection has received growing attention as the
information from different sensors like LiDAR and cameras are complementary.
Most fusion methods for 3D detection rely on an accurate alignment and
calibration between 3D point clouds and RGB images. However, such an assumption
is not reliable in a real-world self-driving system, as the alignment between
different modalities is easily affected by asynchronous sensors and disturbed
sensor placement. We propose a novel {F}usion network by {B}ox {M}atching
(FBMNet) for multi-modal 3D detection, which provides an alternative way for
cross-modal feature alignment by learning the correspondence at the bounding
box level to free up the dependency of calibration during inference. With the
learned assignments between 3D and 2D object proposals, the fusion for
detection can be effectively performed by combing their ROI features. Extensive
experiments on the nuScenes dataset demonstrate that our method is much more
stable in dealing with challenging cases such as asynchronous sensors,
misaligned sensor placement, and degenerated camera images than existing fusion
methods. We hope that our FBMNet could provide an available solution to dealing
with these challenging cases for safety in real autonomous driving scenarios.
Codes will be publicly available at https://github.com/happinesslz/FBMNet.
- Abstract(参考訳): マルチモーダル3Dオブジェクト検出は、LiDARやカメラなどの様々なセンサーからの情報が相補的であるため、注目を集めている。
3次元検出のためのほとんどの融合法は、3次元点雲とRGB画像の正確なアライメントと校正に依存している。
しかし,このような仮定は,非同期センサや乱れたセンサ配置の影響を受けやすいため,現実の自動運転システムでは信頼性が低い。
B}ox {M}atching (FBMNet) による新規なマルチモーダル3D検出ネットワークを提案する。これは、境界ボックスレベルで対応を学習し、推論中にキャリブレーションの依存性を解放することで、クロスモーダルな特徴アライメントの代替手段を提供する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
nuScenesデータセットの大規模な実験により,既存の融合法よりも,非同期センサやセンサ配置のずれ,カメラ画像のデジェクトといった課題に対処する上で,我々の手法ははるかに安定であることが示された。
当社のFBMNetが、現実の自動運転シナリオにおいて、これらの困難なケースに対処するための、利用可能なソリューションを提供することを期待しています。
コードはhttps://github.com/happinesslz/fbmnetで公開されている。
関連論文リスト
- Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data [68.18735997052265]
単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。
本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。
3次元検出の精度は最先端の単分子検出法と比較して20%向上する。
論文 参考訳(メタデータ) (2024-04-10T03:54:53Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - ImLiDAR: Cross-Sensor Dynamic Message Propagation Network for 3D Object
Detection [20.44294678711783]
我々は,カメラ画像とLiDAR点雲のマルチスケール特徴を段階的に融合させることにより,センサ間差を狭める新しい3ODパラダイムであるImLiDARを提案する。
まず,マルチスケール画像とポイント特徴の最良の組み合わせを目的とした,クロスセンサ動的メッセージ伝搬モジュールを提案する。
第二に、効率的なセットベース検出器を設計できるような、直接セット予測問題を提起する。
論文 参考訳(メタデータ) (2022-11-17T13:31:23Z) - MSF3DDETR: Multi-Sensor Fusion 3D Detection Transformer for Autonomous
Driving [0.0]
MSF3DDETR: 画像とLiDAR機能を融合して検出精度を向上させるマルチセンサフュージョン3D検出変換器アーキテクチャを提案する。
我々のエンドツーエンドのシングルステージ、アンカーフリー、NMSフリーネットワークは、マルチビューイメージとLiDARポイントクラウドを取り込み、3Dバウンディングボックスを予測する。
MSF3DDETRネットワークは、DeTRにインスパイアされたハンガリーのアルゴリズムに基づくバイパーティイトマッチングとセット・ツー・セット・ロスを使用して、nuScenesデータセット上でエンドツーエンドにトレーニングされている。
論文 参考訳(メタデータ) (2022-10-27T10:55:15Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - FUTR3D: A Unified Sensor Fusion Framework for 3D Detection [18.70932813595532]
ほぼ任意のセンサ構成で使用できる3D検出のための最初の統合エンドツーエンドセンサフュージョンフレームワークR3Dを提案する。
R3Dは、クエリベースのModality-Agnostic Feature Sampler (MAFS)と、3D検出のためのセット・ツー・セット・ロスを備えた変換器デコーダを採用している。
NuScenesデータセットでは、R3Dは、さまざまなセンサーの組み合わせで特別に設計されたメソッドよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-20T20:41:55Z) - DetMatch: Two Teachers are Better Than One for Joint 2D and 3D
Semi-Supervised Object Detection [29.722784254501768]
DetMatchは、2Dおよび3Dモダリティに関する共同半教師付き学習のための柔軟なフレームワークである。
両方のセンサーで検出された物体を識別することで、パイプラインはよりクリーンで堅牢な擬似ラベルを生成する。
我々はRGB画像のよりリッチなセマンティクスを活用して、誤った3Dクラスの予測を修正し、3Dボックスのローカライズを改善する。
論文 参考訳(メタデータ) (2022-03-17T17:58:00Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - RoIFusion: 3D Object Detection from LiDAR and Vision [7.878027048763662]
本稿では,3次元関心領域(RoI)の集合を点雲から対応する画像の2次元ロIに投影することで,新しい融合アルゴリズムを提案する。
提案手法は,KITTI 3Dオブジェクト検出課題ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-09-09T20:23:27Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。