論文の概要: MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2108.12863v1
- Date: Sun, 29 Aug 2021 15:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 02:06:41.986754
- Title: MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection
- Title(参考訳): MBDF-Net:3次元物体検出のためのマルチブランチディープフュージョンネットワーク
- Authors: Xun Tan, Xingyu Chen, Guowei Zhang, Jishiyu Ding, Xuguang Lan
- Abstract要約: 3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
- 参考スコア(独自算出の注目度): 17.295359521427073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Point clouds and images could provide complementary information when
representing 3D objects. Fusing the two kinds of data usually helps to improve
the detection results. However, it is challenging to fuse the two data
modalities, due to their different characteristics and the interference from
the non-interest areas. To solve this problem, we propose a Multi-Branch Deep
Fusion Network (MBDF-Net) for 3D object detection. The proposed detector has
two stages. In the first stage, our multi-branch feature extraction network
utilizes Adaptive Attention Fusion (AAF) modules to produce cross-modal fusion
features from single-modal semantic features. In the second stage, we use a
region of interest (RoI) -pooled fusion module to generate enhanced local
features for refinement. A novel attention-based hybrid sampling strategy is
also proposed for selecting key points in the downsampling process. We evaluate
our approach on two widely used benchmark datasets including KITTI and
SUN-RGBD. The experimental results demonstrate the advantages of our method
over state-of-the-art approaches.
- Abstract(参考訳): 点雲と画像は、3Dオブジェクトを表現する際に補完的な情報を提供する。
2種類のデータを融合することは、通常、検出結果を改善するのに役立つ。
しかし、異なる特徴と非関心領域からの干渉のため、2つのデータモダリティを融合させることは困難である。
そこで本研究では,3次元物体検出のためのマルチブランチディープフュージョンネットワーク(MBDF-Net)を提案する。
提案された検出器には2つのステージがある。
最初の段階では、我々のマルチブランチ機能抽出ネットワークは、アダプティブ・アテンション・フュージョン(AAF)モジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合特徴を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
ダウンサンプリングプロセスにおいてキーポイントを選択するための注意に基づく新しいハイブリッドサンプリング戦略も提案されている。
我々は、KITTIとSUN-RGBDを含む2つの広く使われているベンチマークデータセットに対するアプローチを評価する。
実験により,本手法の最先端手法に対する利点を実証した。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - E2E-MFD: Towards End-to-End Synchronous Multimodal Fusion Detection [21.185032466325737]
マルチモーダル核融合検出のための新しいエンドツーエンドアルゴリズムであるE2E-MFDを紹介する。
E2E-MFDはプロセスの合理化を図り、単一のトレーニングフェーズで高いパフォーマンスを達成する。
複数の公開データセットに対する広範なテストは、E2E-MFDの優れた機能を明らかにします。
論文 参考訳(メタデータ) (2024-03-14T12:12:17Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - LATFormer: Locality-Aware Point-View Fusion Transformer for 3D Shape
Recognition [38.540048855119004]
そこで我々は,3次元形状検索と分類のためのLATFormer(Locality-Aware Point-View Fusion Transformer)を提案する。
LATFormerの中核となるコンポーネントはLocality-Aware Fusion (LAF) という名前のモジュールで、2つのモードにまたがる関連領域の局所的特徴を統合する。
LATFormerでは,LAFモジュールを用いて双方向および階層的に2つのモードのマルチスケール機能を融合し,より情報的な特徴を得る。
論文 参考訳(メタデータ) (2021-09-03T03:23:27Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。