論文の概要: 3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View
Spatial Feature Fusion for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2004.12636v2
- Date: Tue, 21 Jul 2020 03:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 05:01:59.547728
- Title: 3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View
Spatial Feature Fusion for 3D Object Detection
- Title(参考訳): 3D-CVF:3Dオブジェクト検出のためのクロスビュー空間特徴融合を用いた関節カメラとLiDARの特徴生成
- Authors: Jin Hyeok Yoo and Yecheol Kim and Jisong Kim and Jun Won Choi
- Abstract要約: 本稿では,3次元物体検出のためのカメラとLiDARセンサの融合アーキテクチャを提案する。
提案した3D-CVFは,KITTIベンチマークの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 10.507404260449333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a new deep architecture for fusing camera and LiDAR
sensors for 3D object detection. Because the camera and LiDAR sensor signals
have different characteristics and distributions, fusing these two modalities
is expected to improve both the accuracy and robustness of 3D object detection.
One of the challenges presented by the fusion of cameras and LiDAR is that the
spatial feature maps obtained from each modality are represented by
significantly different views in the camera and world coordinates; hence, it is
not an easy task to combine two heterogeneous feature maps without loss of
information. To address this problem, we propose a method called 3D-CVF that
combines the camera and LiDAR features using the cross-view spatial feature
fusion strategy. First, the method employs auto-calibrated projection, to
transform the 2D camera features to a smooth spatial feature map with the
highest correspondence to the LiDAR features in the bird's eye view (BEV)
domain. Then, a gated feature fusion network is applied to use the spatial
attention maps to mix the camera and LiDAR features appropriately according to
the region. Next, camera-LiDAR feature fusion is also achieved in the
subsequent proposal refinement stage. The camera feature is used from the 2D
camera-view domain via 3D RoI grid pooling and fused with the BEV feature for
proposal refinement. Our evaluations, conducted on the KITTI and nuScenes 3D
object detection datasets demonstrate that the camera-LiDAR fusion offers
significant performance gain over single modality and that the proposed 3D-CVF
achieves state-of-the-art performance in the KITTI benchmark.
- Abstract(参考訳): 本稿では,3次元物体検出のためのカメラとLiDARセンサを融合する新しい深層アーキテクチャを提案する。
カメラとLiDARセンサ信号は特性や分布が異なるため,これら2つのモードを融合させることで,3次元物体検出の精度と堅牢性の向上が期待できる。
カメラとLiDARの融合による課題の1つは、各モダリティから得られる空間特徴写像が、カメラと世界座標において著しく異なる視点で表現されることであり、情報を失うことなく2つの異種特徴写像を組み合わせることは容易ではない。
そこで本稿では,クロスビュー空間的特徴融合手法を用いて,カメラとライダーを組み合わせる3d-cvf方式を提案する。
まず、自動校正投影を用いて、2Dカメラの特徴を鳥の視線(BEV)領域におけるLiDAR特徴に最も対応したスムーズな空間特徴写像に変換する。
次に、ゲート機能融合ネットワークを適用し、空間アテンションマップを用いてカメラとLiDAR特徴を領域に応じて適切に混合する。
次に、カメラ-LiDAR機能融合が、その後の改良段階で達成される。
カメラ機能は、3D RoIグリッドプーリングを通じて2Dカメラビュードメインから使用され、提案の改良のためにBEV機能と融合している。
KITTIとnuScenesの3Dオブジェクト検出データセットを用いて評価したところ、カメラ-LiDAR融合は単一モードよりも大きな性能向上を示し、提案した3D-CVFはKITTIベンチマークで最先端のパフォーマンスを達成することが示された。
関連論文リスト
- BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection [10.321117046185321]
この手紙は、BiCo-Fusionと呼ばれる新しい双方向補体Lidar-Camera融合フレームワークを提案する。
重要な洞察は、LiDAR特徴のセマンティクスとカメラ特徴の空間的認識を強化するために、マルチモーダル特徴を相互に融合させることである。
次に、Unified Fusionを導入して、魔法のLidarとカメラの機能から選択した機能を適応的に重み付けし、統一された3D表現を構築する。
論文 参考訳(メタデータ) (2024-06-27T09:56:38Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye
View Representation for 3D Object Detection [14.706717531900708]
LiDARとカメラは、自律運転における3Dオブジェクト検出に不可欠な2つのセンサーである。
近年の手法では,LiDAR点雲にカメラ機能を持たせた点レベルの融合に焦点が当てられている。
We present SemanticBEVFusion to deep fuse camera features with LiDAR features in an unified BEV representation。
論文 参考訳(メタデータ) (2022-12-09T05:48:58Z) - 3D Dual-Fusion: Dual-Domain Dual-Query Camera-LiDAR Fusion for 3D Object
Detection [13.068266058374775]
我々は3Dデュアルフュージョンと呼ばれる新しいカメラ-LiDAR融合アーキテクチャを提案する。
提案手法は、カメラビューと3次元ボクセルビュードメインの特徴を融合させ、変形可能な注意を通して相互作用をモデル化する。
実験の結果,提案したカメラ-LiDAR融合アーキテクチャは,KITTIおよびnuScenesデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2022-11-24T11:00:50Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Deep Continuous Fusion for Multi-Sensor 3D Object Detection [103.5060007382646]
本稿では,LIDARとカメラを併用して高精度な位置検出を実現する3Dオブジェクト検出器を提案する。
我々は,連続畳み込みを利用して画像とlidar特徴マップを異なるレベルの解像度で融合する,エンドツーエンド学習可能なアーキテクチャを設計した。
論文 参考訳(メタデータ) (2020-12-20T18:43:41Z) - RoIFusion: 3D Object Detection from LiDAR and Vision [7.878027048763662]
本稿では,3次元関心領域(RoI)の集合を点雲から対応する画像の2次元ロIに投影することで,新しい融合アルゴリズムを提案する。
提案手法は,KITTI 3Dオブジェクト検出課題ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-09-09T20:23:27Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。