論文の概要: Multi-View Adaptive Fusion Network for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2011.00652v2
- Date: Tue, 8 Dec 2020 03:54:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:04:55.172117
- Title: Multi-View Adaptive Fusion Network for 3D Object Detection
- Title(参考訳): 3次元物体検出のためのマルチビュー適応核融合ネットワーク
- Authors: Guojun Wang, Bin Tian, Yachen Zhang, Long Chen, Dongpu Cao, Jian Wu
- Abstract要約: LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
- 参考スコア(独自算出の注目度): 14.506796247331584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection based on LiDAR-camera fusion is becoming an emerging
research theme for autonomous driving. However, it has been surprisingly
difficult to effectively fuse both modalities without information loss and
interference. To solve this issue, we propose a single-stage multi-view fusion
framework that takes LiDAR bird's-eye view, LiDAR range view and camera view
images as inputs for 3D object detection. To effectively fuse multi-view
features, we propose an attentive pointwise fusion (APF) module to estimate the
importance of the three sources with attention mechanisms that can achieve
adaptive fusion of multi-view features in a pointwise manner. Furthermore, an
attentive pointwise weighting (APW) module is designed to help the network
learn structure information and point feature importance with two extra tasks,
namely, foreground classification and center regression, and the predicted
foreground probability is used to reweight the point features. We design an
end-to-end learnable network named MVAF-Net to integrate these two components.
Our evaluations conducted on the KITTI 3D object detection datasets demonstrate
that the proposed APF and APW modules offer significant performance gains.
Moreover, the proposed MVAF-Net achieves the best performance among all
single-stage fusion methods and outperforms most two-stage fusion methods,
achieving the best trade-off between speed and accuracy on the KITTI benchmark.
- Abstract(参考訳): LiDARカメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
しかし、情報損失や干渉なしに両モードを効果的に融合することは驚くほど困難である。
そこで本研究では,LiDARバードアイビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
マルチビュー特徴を効果的に融合させるため,多視点特徴の適応的融合をポイントワイズで達成できるアテンテーティブ・ポイントワイズ・フュージョン(APF)モジュールを提案する。
さらに、注意点重み付け(APW)モジュールは、前景分類と中心回帰という2つの余分なタスクでネットワークが構造情報と点特徴の重要性を学習するのに役立つように設計され、予測された前景確率を用いて点特徴を再重み付けする。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
kitti 3d オブジェクト検出データセット上で行った評価の結果,提案する apf と apw モジュールの性能向上が示された。
さらに,提案したMVAF-Netは,全単段核融合法の中で最高の性能を示し,KITTIベンチマークにおける速度と精度の最良のトレードオフを実現する。
関連論文リスト
- MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation [59.42262859654698]
3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。
既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a
Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。
本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T05:47:52Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。