論文の概要: DAOcc: 3D Object Detection Assisted Multi-Sensor Fusion for 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2409.19972v2
- Date: Wed, 20 Nov 2024 12:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:10:40.188179
- Title: DAOcc: 3D Object Detection Assisted Multi-Sensor Fusion for 3D Occupancy Prediction
- Title(参考訳): DAOcc:3次元動作予測のためのマルチセンサフュージョンによる3次元物体検出
- Authors: Zhen Yang, Yanpeng Dong, Heng Wang, Lichao Ma, Zijian Cui, Qi Liu, Haoran Pei,
- Abstract要約: マルチセンサー融合は3次元意味的占有予測の精度と堅牢性を著しく向上させる。
既存のアプローチのほとんどは、トップパフォーマンスを達成するために大きな画像解像度と複雑なネットワークに依存している。
本稿では,3次元物体検出監視を利用して優れた性能を実現する,新しいマルチモーダル占有予測フレームワークであるBEccを提案する。
- 参考スコア(独自算出の注目度): 11.349017382503986
- License:
- Abstract: Multi-sensor fusion significantly enhances the accuracy and robustness of 3D semantic occupancy prediction, which is crucial for autonomous driving and robotics. However, most existing approaches depend on large image resolutions and complex networks to achieve top performance, hindering their application in practical scenarios. Additionally, most multi-sensor fusion approaches focus on improving fusion features while overlooking the exploration of supervision strategies for these features. To this end, we propose DAOcc, a novel multi-modal occupancy prediction framework that leverages 3D object detection supervision to assist in achieving superior performance, while using a deployment-friendly image feature extraction network and practical input image resolution. Furthermore, we introduce a BEV View Range Extension strategy to mitigate the adverse effects of reduced image resolution. Experimental results show that DAOcc achieves new state-of-the-art performance on the Occ3D-nuScenes and SurroundOcc benchmarks, and surpasses other methods by a significant margin while using only ResNet50 and 256*704 input image resolution. Code will be made available at https://github.com/AlphaPlusTT/DAOcc.
- Abstract(参考訳): マルチセンサー融合は、自律運転とロボット工学にとって重要な3Dセマンティック占有率予測の精度と堅牢性を大幅に向上させる。
しかし、既存のほとんどのアプローチは、トップパフォーマンスを達成するために大きな画像解像度と複雑なネットワークに依存しており、実践的なシナリオではアプリケーションの動作を妨げている。
さらに、ほとんどのマルチセンサーフュージョンアプローチは、これらの特徴に対する監督戦略の探索を見越しながら、融合機能の改善に焦点を当てている。
DAOccは,3次元物体検出監視を利用して,配置に適した画像特徴抽出ネットワークと実用的な入力画像解像度を用いて,優れた性能を実現するための,新しいマルチモーダル占有予測フレームワークである。
さらに,画像解像度の低下による悪影響を軽減するため,BEVビューレンジ拡張戦略を導入する。
実験結果から,DAOccはOcc3D-nuScenesとSurroundOccのベンチマークで新たな最先端性能を実現し,ResNet50と256*704の入力画像解像度のみを用いて他の手法をかなり上回っていることがわかった。
コードはhttps://github.com/AlphaPlusTT/DAOcc.comで公開される。
関連論文リスト
- Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - Cross-Domain Spatial Matching for Camera and Radar Sensor Data Fusion in Autonomous Vehicle Perception System [0.0]
本稿では,自律走行車認識システムにおける3次元物体検出のためのカメラとレーダーセンサの融合問題に対する新しいアプローチを提案する。
我々のアプローチは、ディープラーニングの最近の進歩に基づいており、両方のセンサーの強度を活用して物体検出性能を向上させる。
提案手法は単一センサ・ソリューションよりも優れた性能を実現し,他のトップレベルの融合手法と直接競合できることを示す。
論文 参考訳(メタデータ) (2024-04-25T12:04:31Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - Deep Continuous Fusion for Multi-Sensor 3D Object Detection [103.5060007382646]
本稿では,LIDARとカメラを併用して高精度な位置検出を実現する3Dオブジェクト検出器を提案する。
我々は,連続畳み込みを利用して画像とlidar特徴マップを異なるレベルの解像度で融合する,エンドツーエンド学習可能なアーキテクチャを設計した。
論文 参考訳(メタデータ) (2020-12-20T18:43:41Z) - RoIFusion: 3D Object Detection from LiDAR and Vision [7.878027048763662]
本稿では,3次元関心領域(RoI)の集合を点雲から対応する画像の2次元ロIに投影することで,新しい融合アルゴリズムを提案する。
提案手法は,KITTI 3Dオブジェクト検出課題ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-09-09T20:23:27Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。