論文の概要: MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2108.12863v1
- Date: Sun, 29 Aug 2021 15:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 02:06:41.986754
- Title: MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection
- Title(参考訳): MBDF-Net:3次元物体検出のためのマルチブランチディープフュージョンネットワーク
- Authors: Xun Tan, Xingyu Chen, Guowei Zhang, Jishiyu Ding, Xuguang Lan
- Abstract要約: 3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
- 参考スコア(独自算出の注目度): 17.295359521427073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Point clouds and images could provide complementary information when
representing 3D objects. Fusing the two kinds of data usually helps to improve
the detection results. However, it is challenging to fuse the two data
modalities, due to their different characteristics and the interference from
the non-interest areas. To solve this problem, we propose a Multi-Branch Deep
Fusion Network (MBDF-Net) for 3D object detection. The proposed detector has
two stages. In the first stage, our multi-branch feature extraction network
utilizes Adaptive Attention Fusion (AAF) modules to produce cross-modal fusion
features from single-modal semantic features. In the second stage, we use a
region of interest (RoI) -pooled fusion module to generate enhanced local
features for refinement. A novel attention-based hybrid sampling strategy is
also proposed for selecting key points in the downsampling process. We evaluate
our approach on two widely used benchmark datasets including KITTI and
SUN-RGBD. The experimental results demonstrate the advantages of our method
over state-of-the-art approaches.
- Abstract(参考訳): 点雲と画像は、3Dオブジェクトを表現する際に補完的な情報を提供する。
2種類のデータを融合することは、通常、検出結果を改善するのに役立つ。
しかし、異なる特徴と非関心領域からの干渉のため、2つのデータモダリティを融合させることは困難である。
そこで本研究では,3次元物体検出のためのマルチブランチディープフュージョンネットワーク(MBDF-Net)を提案する。
提案された検出器には2つのステージがある。
最初の段階では、我々のマルチブランチ機能抽出ネットワークは、アダプティブ・アテンション・フュージョン(AAF)モジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合特徴を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
ダウンサンプリングプロセスにおいてキーポイントを選択するための注意に基づく新しいハイブリッドサンプリング戦略も提案されている。
我々は、KITTIとSUN-RGBDを含む2つの広く使われているベンチマークデータセットに対するアプローチを評価する。
実験により,本手法の最先端手法に対する利点を実証した。
関連論文リスト
- MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - MMDR: A Result Feature Fusion Object Detection Approach for Autonomous
System [5.499393552545591]
提案手法は,MMDR (Multi-Modal Detector based based Result features) と呼ばれ,2次元と3次元の両方のオブジェクト検出タスクで動作するように設計されている。
MMDRモデルは、機能融合の段階で、浅いグローバルな特徴を取り入れ、背景情報を知覚する能力を持つモデルを提供する。
論文 参考訳(メタデータ) (2023-04-19T12:28:42Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - LATFormer: Locality-Aware Point-View Fusion Transformer for 3D Shape
Recognition [38.540048855119004]
そこで我々は,3次元形状検索と分類のためのLATFormer(Locality-Aware Point-View Fusion Transformer)を提案する。
LATFormerの中核となるコンポーネントはLocality-Aware Fusion (LAF) という名前のモジュールで、2つのモードにまたがる関連領域の局所的特徴を統合する。
LATFormerでは,LAFモジュールを用いて双方向および階層的に2つのモードのマルチスケール機能を融合し,より情報的な特徴を得る。
論文 参考訳(メタデータ) (2021-09-03T03:23:27Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation [59.42262859654698]
3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。
既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。