論文の概要: Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2210.09615v1
- Date: Tue, 18 Oct 2022 06:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:57:53.198822
- Title: Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection
- Title(参考訳): 3次元物体検出のための均質なマルチモーダル特徴融合と相互作用
- Authors: Xin Li, Botian Shi, Yuenan Hou, Xingjiao Wu, Tianlong Ma, Yikang Li,
Liang He
- Abstract要約: マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
- 参考スコア(独自算出の注目度): 16.198358858773258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal 3D object detection has been an active research topic in
autonomous driving. Nevertheless, it is non-trivial to explore the cross-modal
feature fusion between sparse 3D points and dense 2D pixels. Recent approaches
either fuse the image features with the point cloud features that are projected
onto the 2D image plane or combine the sparse point cloud with dense image
pixels. These fusion approaches often suffer from severe information loss, thus
causing sub-optimal performance. To address these problems, we construct the
homogeneous structure between the point cloud and images to avoid projective
information loss by transforming the camera features into the LiDAR 3D space.
In this paper, we propose a homogeneous multi-modal feature fusion and
interaction method (HMFI) for 3D object detection. Specifically, we first
design an image voxel lifter module (IVLM) to lift 2D image features into the
3D space and generate homogeneous image voxel features. Then, we fuse the
voxelized point cloud features with the image features from different regions
by introducing the self-attention based query fusion mechanism (QFM). Next, we
propose a voxel feature interaction module (VFIM) to enforce the consistency of
semantic information from identical objects in the homogeneous point cloud and
image voxel representations, which can provide object-level alignment guidance
for cross-modal feature fusion and strengthen the discriminative ability in
complex backgrounds. We conduct extensive experiments on the KITTI and Waymo
Open Dataset, and the proposed HMFI achieves better performance compared with
the state-of-the-art multi-modal methods. Particularly, for the 3D detection of
cyclist on the KITTI benchmark, HMFI surpasses all the published algorithms by
a large margin.
- Abstract(参考訳): マルチモーダル3dオブジェクト検出は、自動運転における活発な研究テーマである。
それでも、スパース3D点と密度の強い2Dピクセルの間のクロスモーダルな特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせる。
これらの融合アプローチは、しばしば深刻な情報損失に悩まされ、結果として準最適性能を引き起こす。
これらの問題に対処するため,カメラ機能をlidar 3d空間に変換することにより,投影的情報損失を回避するため,点雲と画像の均質構造を構築する。
本稿では,3次元物体検出のための均質な多モード特徴融合・相互作用法(HMFI)を提案する。
具体的には,まず画像ボクセルリフトモジュール(IVLM)を設計し,2次元画像特徴を3次元空間に引き上げ,同種画像ボクセル特徴を生成する。
次に,自己注意型クエリフュージョン機構(QFM)を導入し,各領域の画像特徴とボキシ化点雲の特徴を融合する。
次に,同種点クラウドと画像ボクセル表現における同一オブジェクトからのセマンティック情報の一貫性を強制するボクセル特徴相互作用モジュール(VFIM)を提案する。
kitti と waymo open データセットについて広範な実験を行い,提案する hmfi は最先端のマルチモーダル手法よりも優れた性能を実現する。
特に、KITTIベンチマークでサイクリストの3D検出を行う場合、HMFIは公開されたすべてのアルゴリズムを大きなマージンで上回る。
関連論文リスト
- VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - VoxelNextFusion: A Simple, Unified and Effective Voxel Fusion Framework
for Multi-Modal 3D Object Detection [33.46363259200292]
既存のボクセル法は、1対1で濃密な画像特徴を持つスパース・ボクセル特徴を融合する際の課題に直面する。
本稿では,VoxelNextFusionについて述べる。VoxelNextFusionは,Voxelベースの手法に特化して設計されたマルチモーダル3Dオブジェクト検出フレームワークである。
論文 参考訳(メタデータ) (2024-01-05T08:10:49Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - FusionPainting: Multimodal Fusion with Adaptive Attention for 3D Object
Detection [15.641616738865276]
本稿では,2次元RGB画像と3次元点群をセマンティックレベルで融合させて3次元物体検出タスクを増強する汎用多モード核融合フレームワークFusionPaintingを提案する。
特にFusionPaintingフレームワークは、マルチモーダルセマンティックセグメンテーションモジュール、アダプティブアテンションベースのセマンティックフュージョンモジュール、および3Dオブジェクト検出器の3つの主要モジュールで構成されている。
提案手法の有効性を,大規模なnuScenes検出ベンチマークで検証した。
論文 参考訳(メタデータ) (2021-06-23T14:53:22Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。