論文の概要: EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2112.11088v1
- Date: Tue, 21 Dec 2021 10:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 14:12:23.240139
- Title: EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection
- Title(参考訳): EPNet++:マルチモーダル3Dオブジェクト検出のためのカスケード双方向融合
- Authors: Zhe Liu, Tengteng~Huang, Bingling Li, Xiwu Chen, Xi Wang, Xiang Bai
- Abstract要約: 本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
- 参考スコア(独自算出の注目度): 56.03081616213012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, fusing the LiDAR point cloud and camera image to improve the
performance and robustness of 3D object detection has received more and more
attention, as these two modalities naturally possess strong complementarity. In
this paper, we propose EPNet++ for multi-modal 3D object detection by
introducing a novel Cascade Bi-directional Fusion~(CB-Fusion) module and a
Multi-Modal Consistency~(MC) loss. More concretely, the proposed CB-Fusion
module boosts the plentiful semantic information of point features with the
image features in a cascade bi-directional interaction fusion manner, leading
to more comprehensive and discriminative feature representations. The MC loss
explicitly guarantees the consistency between predicted scores from two
modalities to obtain more comprehensive and reliable confidence scores. The
experiment results on the KITTI, JRDB and SUN-RGBD datasets demonstrate the
superiority of EPNet++ over the state-of-the-art methods. Besides, we emphasize
a critical but easily overlooked problem, which is to explore the performance
and robustness of a 3D detector in a sparser scene. Extensive experiments
present that EPNet++ outperforms the existing SOTA methods with remarkable
margins in highly sparse point cloud cases, which might be an available
direction to reduce the expensive cost of LiDAR sensors. Code will be released
in the future.
- Abstract(参考訳): 近年,lidar point cloudとカメラ画像を用いて3次元物体検出の性能とロバスト性を向上させる手法が注目されている。
本稿では,Casscade Bi-directional Fusion~(CB-Fusion)モジュールとMulti-Modal Consistency~(MC)損失を導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
より具体的には、CB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高め、より包括的で識別的な特徴表現をもたらす。
MC損失は、2つのモードからの予測スコア間の整合性を明確に保証し、より包括的で信頼性の高い信頼スコアを得る。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
さらに,スペーサーシーンにおける3次元検出器の性能とロバスト性を探るため,重要かつ容易に見落としてしまう問題を強調した。
大規模な実験によると、EPNet++は、LiDARセンサーの高価なコストを下げるために利用可能な、非常に疎いクラウドケースにおいて、既存のSOTAメソッドよりも優れたマージンを持つ。
コードは将来的にリリースされる予定だ。
関連論文リスト
- Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Deep Continuous Fusion for Multi-Sensor 3D Object Detection [103.5060007382646]
本稿では,LIDARとカメラを併用して高精度な位置検出を実現する3Dオブジェクト検出器を提案する。
我々は,連続畳み込みを利用して画像とlidar特徴マップを異なるレベルの解像度で融合する,エンドツーエンド学習可能なアーキテクチャを設計した。
論文 参考訳(メタデータ) (2020-12-20T18:43:41Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - EPNet: Enhancing Point Features with Image Semantics for 3D Object
Detection [60.097873683615695]
我々は,複数のセンサの活用を含む,3次元検出タスクにおける2つの重要な課題に対処することを目指している。
本稿では,画像アノテーションを使わずに,意味的な画像特徴をポイントワイズで拡張する新たな融合モジュールを提案する。
これら2つのコンポーネントを統合するために,EPNetというエンドツーエンドで学習可能なフレームワークを設計する。
論文 参考訳(メタデータ) (2020-07-17T09:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。