論文の概要: FGFusion: Fine-Grained Lidar-Camera Fusion for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2309.11804v1
- Date: Thu, 21 Sep 2023 06:24:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 16:39:24.507730
- Title: FGFusion: Fine-Grained Lidar-Camera Fusion for 3D Object Detection
- Title(参考訳): FGFusion:3次元物体検出のための細粒Lidar-Camera Fusion
- Authors: Zixuan Yin, Han Sun, Ningzhong Liu, Huiyu Zhou, Jiaquan Shen
- Abstract要約: ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
最も一般的な方法は、3Dポイントクラウドとカメライメージを徐々にダウンスケールし、ハイレベルな機能を融合させる。
画像と点雲のマルチスケール特徴をフル活用したファイングレードLidar-Camera Fusion (FGFusion)を提案する。
- 参考スコア(独自算出の注目度): 18.91387885960839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lidars and cameras are critical sensors that provide complementary
information for 3D detection in autonomous driving. While most prevalent
methods progressively downscale the 3D point clouds and camera images and then
fuse the high-level features, the downscaled features inevitably lose low-level
detailed information. In this paper, we propose Fine-Grained Lidar-Camera
Fusion (FGFusion) that make full use of multi-scale features of image and point
cloud and fuse them in a fine-grained way. First, we design a dual pathway
hierarchy structure to extract both high-level semantic and low-level detailed
features of the image. Second, an auxiliary network is introduced to guide
point cloud features to better learn the fine-grained spatial information.
Finally, we propose multi-scale fusion (MSF) to fuse the last N feature maps of
image and point cloud. Extensive experiments on two popular autonomous driving
benchmarks, i.e. KITTI and Waymo, demonstrate the effectiveness of our method.
- Abstract(参考訳): ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
ほとんどの一般的な方法は、3Dポイントクラウドとカメライメージを徐々にダウンスケールし、ハイレベルな特徴を融合させるが、ダウンスケールされた機能は必然的に低レベルな詳細情報を失う。
本稿では,画像と点雲のマルチスケール特徴をフル活用し,微細な方法で融合するFGF(Fined Lidar-Camera Fusion)を提案する。
まず,画像の高レベルな意味的特徴と低レベルな詳細特徴の両方を抽出するために,二重経路階層構造を設計する。
第2に,ポイントクラウド機能のガイドとして補助ネットワークを導入し,詳細な空間情報を学習する。
最後に,画像と点雲のN特徴写像を融合させるマルチスケール融合(MSF)を提案する。
KITTIとWaymoという2つの一般的な自動運転ベンチマークの大規模な実験は、我々の方法の有効性を実証している。
関連論文リスト
- MSSF: A 4D Radar and Camera Fusion Framework With Multi-Stage Sampling for 3D Object Detection in Autonomous Driving [9.184945917823047]
本研究では,4次元レーダとカメラを用いた簡易かつ効果的なマルチステージサンプリング・フュージョン(MSSF)ネットワークを提案する。
MSSFは、View-of-Delft(VoD)とTJ4DRadsetデータセットの3D平均精度を7.0%と4.0%改善している。
さらには、VoDデータセット上の古典的なLiDARベースのメソッドを超越している。
論文 参考訳(メタデータ) (2024-11-22T15:45:23Z) - Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye
View Representation for 3D Object Detection [14.706717531900708]
LiDARとカメラは、自律運転における3Dオブジェクト検出に不可欠な2つのセンサーである。
近年の手法では,LiDAR点雲にカメラ機能を持たせた点レベルの融合に焦点が当てられている。
We present SemanticBEVFusion to deep fuse camera features with LiDAR features in an unified BEV representation。
論文 参考訳(メタデータ) (2022-12-09T05:48:58Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - RoIFusion: 3D Object Detection from LiDAR and Vision [7.878027048763662]
本稿では,3次元関心領域(RoI)の集合を点雲から対応する画像の2次元ロIに投影することで,新しい融合アルゴリズムを提案する。
提案手法は,KITTI 3Dオブジェクト検出課題ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-09-09T20:23:27Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes [93.82668222075128]
RGB-Dシーンに対するImVoteNetと呼ばれる3次元検出アーキテクチャを提案する。
ImVoteNetは、画像に2D票、ポイントクラウドに3D票を投じることに基づいている。
挑戦的なSUN RGB-Dデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2020-01-29T05:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。