Fugu-MT 論文翻訳(概要): BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection

論文の概要: BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection

arxiv url: http://arxiv.org/abs/2406.19048v2
Date: Sun, 01 Dec 2024 07:07:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:01:15.660006
Title: BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection
Title（参考訳）: BiCo-Fusion:意味的・空間的3次元物体検出のための双方向LiDAR-Camera Fusion
Authors: Yang Song, Lin Wang,
Abstract要約: 新しいトレンドはマルチモーダル入力、すなわちLiDARとカメラを融合させることである。 LiDARの機能は詳細なセマンティック情報と格闘し、カメラは正確な3D空間情報を欠いている。 BiCo-Fusionは、ロバストなセマンティックおよび空間認識の3Dオブジェクト検出を実現する。
参考スコア（独自算出の注目度）: 10.321117046185321
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D object detection is an important task that has been widely applied in autonomous driving. To perform this task, a new trend is to fuse multi-modal inputs, i.e., LiDAR and camera. Under such a trend, recent methods fuse these two modalities by unifying them in the same 3D space. However, during direct fusion in a unified space, the drawbacks of both modalities (LiDAR features struggle with detailed semantic information and the camera lacks accurate 3D spatial information) are also preserved, diluting semantic and spatial awareness of the final unified representation. To address the issue, this letter proposes a novel bidirectional complementary LiDAR-camera fusion framework, called BiCo-Fusion that can achieve robust semantic- and spatial-aware 3D object detection. The key insight is to fuse LiDAR and camera features in a bidirectional complementary way to enhance the semantic awareness of the LiDAR and the 3D spatial awareness of the camera. The enhanced features from both modalities are then adaptively fused to build a semantic- and spatial-aware unified representation. Specifically, we introduce Pre-Fusion consisting of a Voxel Enhancement Module (VEM) to enhance the semantic awareness of voxel features from 2D camera features and Image Enhancement Module (IEM) to enhance the 3D spatial awareness of camera features from 3D voxel features. We then introduce Unified Fusion (U-Fusion) to adaptively fuse the enhanced features from the last stage to build a unified representation. Extensive experiments demonstrate the superiority of our BiCo-Fusion against the prior arts. Project page: https://t-ys.github.io/BiCo-Fusion/.
Abstract（参考訳）: 3次元物体検出は、自律運転に広く応用されている重要な課題である。このタスクを実行するために、新しいトレンドはマルチモーダル入力、すなわちLiDARとカメラを融合させることである。このような傾向の下で、最近の手法はこれら2つのモダリティを同じ3次元空間で統一することによって融合する。しかし, 統合空間での直接融合では, 両モードの欠点(LiDARは詳細な意味情報に苦慮し, カメラは正確な3次元空間情報を欠いている)も保存され, 最終的な統一表現に対する意味的・空間的認識が薄れる。この問題に対処するため,本稿では,ロバストなセマンティック・空間認識3Dオブジェクト検出を実現するBiCo-Fusionと呼ばれる,双方向のLiDAR-カメラ融合フレームワークを提案する。重要な洞察は、LiDARとカメラの機能を双方向補完的に融合させ、LiDARの意味的認識とカメラの空間的認識を高めることである。その後、モダリティの強化された特徴を適応的に融合させ、意味的および空間的認識の統一表現を構築する。具体的には,Voxel Enhancement Module (VEM) を用いたPre-Fusionを導入し,2次元カメラ特徴からのボクセル特徴のセマンティックな認識を強化するとともに,画像強調モジュール (IEM) を用いて3次元ボクセル特徴からのカメラ特徴の空間的認識を強化する。次に、最終段階から拡張された特徴を適応的に融合して統一表現を構築するために統一融合(U-Fusion)を導入する。大規模な実験は、これまでの芸術に対するBiCo-Fusionの優位性を実証している。プロジェクトページ: https://t-ys.github.io/BiCo-Fusion/.com

関連論文リスト

Talk2PC: Enhancing 3D Visual Grounding through LiDAR and Radar Point Clouds Fusion for Autonomous Driving [25.28104119280405]
我々は,プロンプト誘導点雲センサの組み合わせのパラダイムに基づく,最初の屋外3次元視覚グラウンドモデルであるTPCNetを提案する。これら2つのセンサの特徴のバランスをとるため,我々は2段階不均一モード適応核融合と呼ばれるマルチフュージョンパラダイムを設計した。我々の実験は、TPCNetがTalk2RadarとTalk2Carの両方のデータセット上で最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-03-11T11:48:27Z)
Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文参考訳（メタデータ） (2024-10-09T22:57:47Z)
SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye View Representation for 3D Object Detection [14.706717531900708]
LiDARとカメラは、自律運転における3Dオブジェクト検出に不可欠な2つのセンサーである。近年の手法では,LiDAR点雲にカメラ機能を持たせた点レベルの融合に焦点が当てられている。 We present SemanticBEVFusion to deep fuse camera features with LiDAR features in an unified BEV representation。
論文参考訳（メタデータ） (2022-12-09T05:48:58Z)
3D Dual-Fusion: Dual-Domain Dual-Query Camera-LiDAR Fusion for 3D Object Detection [13.068266058374775]
我々は3Dデュアルフュージョンと呼ばれる新しいカメラ-LiDAR融合アーキテクチャを提案する。提案手法は、カメラビューと3次元ボクセルビュードメインの特徴を融合させ、変形可能な注意を通して相互作用をモデル化する。実験の結果,提案したカメラ-LiDAR融合アーキテクチャは,KITTIおよびnuScenesデータセット上での競合性能を達成した。
論文参考訳（メタデータ） (2022-11-24T11:00:50Z)
Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文参考訳（メタデータ） (2022-10-18T06:15:56Z)
MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-09-07T12:29:29Z)
Unifying Voxel-based Representation with Transformer for 3D Object Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。 UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文参考訳（メタデータ） (2022-06-01T17:02:40Z)
TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。 TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文参考訳（メタデータ） (2022-03-22T07:15:13Z)
DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文参考訳（メタデータ） (2022-03-15T18:46:06Z)
EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。 KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文参考訳（メタデータ） (2021-12-21T10:48:34Z)
Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。 SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文参考訳（メタデータ） (2021-07-04T09:28:18Z)
Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-03-24T03:24:46Z)
Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。アーキテクチャ全体が2段階の融合を促進する。 KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文参考訳（メタデータ） (2020-08-16T11:01:20Z)
3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection [10.507404260449333]
本稿では,3次元物体検出のためのカメラとLiDARセンサの融合アーキテクチャを提案する。提案した3D-CVFは,KITTIベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2020-04-27T08:34:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。