Fugu-MT 論文翻訳(概要): BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection

論文の概要: BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection

arxiv url: http://arxiv.org/abs/2406.19048v1
Date: Thu, 27 Jun 2024 09:56:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 14:37:31.614457
Title: BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection
Title（参考訳）: BiCo-Fusion:意味的・空間的3次元物体検出のための双方向LiDAR-Camera Fusion
Authors: Yang Song, Lin Wang,
Abstract要約: この手紙は、BiCo-Fusionと呼ばれる新しい双方向補体Lidar-Camera融合フレームワークを提案する。重要な洞察は、LiDAR特徴のセマンティクスとカメラ特徴の空間的認識を強化するために、マルチモーダル特徴を相互に融合させることである。次に、Unified Fusionを導入して、魔法のLidarとカメラの機能から選択した機能を適応的に重み付けし、統一された3D表現を構築する。
参考スコア（独自算出の注目度）: 10.321117046185321
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D object detection is an important task that has been widely applied in autonomous driving. Recently, fusing multi-modal inputs, i.e., LiDAR and camera data, to perform this task has become a new trend. Existing methods, however, either ignore the sparsity of Lidar features or fail to preserve the original spatial structure of LiDAR and the semantic density of camera features simultaneously due to the modality gap. To address issues, this letter proposes a novel bidirectional complementary Lidar-camera fusion framework, called BiCo-Fusion that can achieve robust semantic- and spatial-aware 3D object detection. The key insight is to mutually fuse the multi-modal features to enhance the semantics of LiDAR features and the spatial awareness of the camera features and adaptatively select features from both modalities to build a unified 3D representation. Specifically, we introduce Pre-Fusion consisting of a Voxel Enhancement Module (VEM) to enhance the semantics of voxel features from 2D camera features and Image Enhancement Module (IEM) to enhance the spatial characteristics of camera features from 3D voxel features. Both VEM and IEM are bidirectionally updated to effectively reduce the modality gap. We then introduce Unified Fusion to adaptively weight to select features from the enchanted Lidar and camera features to build a unified 3D representation. Extensive experiments demonstrate the superiority of our BiCo-Fusion against the prior arts. Project page: https://t-ys.github.io/BiCo-Fusion/.
Abstract（参考訳）: 3次元物体検出は、自律運転に広く応用されている重要な課題である。近年,マルチモーダル入力,すなわちLiDARとカメラデータを融合して,このタスクを行うのが新しいトレンドとなっている。しかし、既存の手法は、Lidarの特徴の空間性を無視するか、LiDARの本来の空間構造とカメラの特徴のセマンティックな密度を同時に保持できないかのいずれかである。この問題に対処するため,本稿では,ロバストなセマンティックおよび空間認識型3Dオブジェクト検出を実現するために,BiCo-Fusionと呼ばれる,双方向補完Lidar-camera融合フレームワークを提案する。重要な洞察は、LiDAR特徴のセマンティクスを強化し、カメラ特徴の空間的認識を高め、両モードから特徴を適応的に選択し、統一された3D表現を構築することである。具体的には,Voxel Enhancement Module (VEM) を2次元カメラ特徴からボクセル特徴のセマンティクスを強化するためのプレフュージョンと,カメラ特徴の空間的特徴を3次元ボクセル特徴から強化するための画像強調モジュール(IEM)を導入する。 VEMとIMMは双方向に更新され、モダリティギャップを効果的に低減する。次に、Unified Fusionを導入して、魔法のLidarとカメラの機能から選択した機能を適応的に重み付けし、統一された3D表現を構築する。大規模な実験は、これまでの芸術に対するBiCo-Fusionの優位性を実証している。プロジェクトページ: https://t-ys.github.io/BiCo-Fusion/.com

関連論文リスト

Talk2PC: Enhancing 3D Visual Grounding through LiDAR and Radar Point Clouds Fusion for Autonomous Driving [25.28104119280405]
我々は,プロンプト誘導点雲センサの組み合わせのパラダイムに基づく,最初の屋外3次元視覚グラウンドモデルであるTPCNetを提案する。これら2つのセンサの特徴のバランスをとるため,我々は2段階不均一モード適応核融合と呼ばれるマルチフュージョンパラダイムを設計した。我々の実験は、TPCNetがTalk2RadarとTalk2Carの両方のデータセット上で最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-03-11T11:48:27Z)
Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文参考訳（メタデータ） (2024-10-09T22:57:47Z)
SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye View Representation for 3D Object Detection [14.706717531900708]
LiDARとカメラは、自律運転における3Dオブジェクト検出に不可欠な2つのセンサーである。近年の手法では,LiDAR点雲にカメラ機能を持たせた点レベルの融合に焦点が当てられている。 We present SemanticBEVFusion to deep fuse camera features with LiDAR features in an unified BEV representation。
論文参考訳（メタデータ） (2022-12-09T05:48:58Z)
3D Dual-Fusion: Dual-Domain Dual-Query Camera-LiDAR Fusion for 3D Object Detection [13.068266058374775]
我々は3Dデュアルフュージョンと呼ばれる新しいカメラ-LiDAR融合アーキテクチャを提案する。提案手法は、カメラビューと3次元ボクセルビュードメインの特徴を融合させ、変形可能な注意を通して相互作用をモデル化する。実験の結果,提案したカメラ-LiDAR融合アーキテクチャは,KITTIおよびnuScenesデータセット上での競合性能を達成した。
論文参考訳（メタデータ） (2022-11-24T11:00:50Z)
Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文参考訳（メタデータ） (2022-10-18T06:15:56Z)
MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-09-07T12:29:29Z)
Unifying Voxel-based Representation with Transformer for 3D Object Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。 UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文参考訳（メタデータ） (2022-06-01T17:02:40Z)
TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。 TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文参考訳（メタデータ） (2022-03-22T07:15:13Z)
DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文参考訳（メタデータ） (2022-03-15T18:46:06Z)
EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。 KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文参考訳（メタデータ） (2021-12-21T10:48:34Z)
Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。 SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文参考訳（メタデータ） (2021-07-04T09:28:18Z)
Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-03-24T03:24:46Z)
Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。アーキテクチャ全体が2段階の融合を促進する。 KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文参考訳（メタデータ） (2020-08-16T11:01:20Z)
3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection [10.507404260449333]
本稿では,3次元物体検出のためのカメラとLiDARセンサの融合アーキテクチャを提案する。提案した3D-CVFは,KITTIベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2020-04-27T08:34:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。