Fugu-MT 論文翻訳(概要): DAOcc: 3D Object Detection Assisted Multi-Sensor Fusion for 3D Occupancy Prediction

論文の概要: DAOcc: 3D Object Detection Assisted Multi-Sensor Fusion for 3D Occupancy Prediction

arxiv url: http://arxiv.org/abs/2409.19972v1
Date: Mon, 30 Sep 2024 05:53:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 16:27:46.960605
Title: DAOcc: 3D Object Detection Assisted Multi-Sensor Fusion for 3D Occupancy Prediction
Title（参考訳）: DAOcc:3次元動作予測のためのマルチセンサフュージョンによる3次元物体検出
Authors: Zhen Yang, Yanpeng Dong, Heng Wang,
Abstract要約: マルチセンサー融合は3次元意味的占有予測の精度と堅牢性を著しく向上させる。本稿では,3次元物体検出監視を利用したマルチセンサフュージョン占有ネットワークを提案する。提案手法は,ResNet50と256x704入力画像解像度を用いて,Occ3D-nuScenesおよびSurroundOccデータセットの新たな最先端結果を実現する。
参考スコア（独自算出の注目度）: 9.749706030365843
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-sensor fusion significantly enhances the accuracy and robustness of 3D semantic occupancy prediction, which is crucial for autonomous driving and robotics. However, existing approaches depend on large image resolutions and complex networks to achieve top performance, hindering their application in practical scenarios. Additionally, most multi-sensor fusion approaches focus on improving fusion features while overlooking the exploration of supervision strategies for these features. To this end, we propose DAOcc, a novel multi-sensor fusion occupancy network that leverages 3D object detection supervision to assist in achieving superior performance, while using a deployment-friendly image feature extraction network and practical input image resolution. Furthermore, we introduce a BEV View Range Extension strategy to mitigate the adverse effects of reduced image resolution. As a result, our approach achieves new state-of-the-art results on the Occ3D-nuScenes and SurroundOcc datasets, using ResNet50 and a 256x704 input image resolution. Code will be made available at https://github.com/AlphaPlusTT/DAOcc.
Abstract（参考訳）: マルチセンサー融合は、自律運転とロボット工学にとって重要な3Dセマンティック占有率予測の精度と堅牢性を大幅に向上させる。しかし、既存のアプローチは高い画像解像度と複雑なネットワークに依存してトップパフォーマンスを実現し、現実的なシナリオにおけるアプリケーションの障害となる。さらに、ほとんどのマルチセンサーフュージョンアプローチは、これらの特徴に対する監督戦略の探索を見越しながら、融合機能の改善に焦点を当てている。 DAOccは,3次元物体検出監視を利用して,配置に適した画像特徴抽出ネットワークと実用的な入力画像解像度を用いて,優れた性能を実現する。さらに,画像解像度の低下による悪影響を軽減するため,BEVビューレンジ拡張戦略を導入する。その結果,Occ3D-nuScenesとSurroundOccのデータセットに対して,ResNet50と256x704の入力画像解像度を用いて,最新の結果が得られた。コードはhttps://github.com/AlphaPlusTT/DAOcc.comで公開される。

関連論文リスト

SDGOCC: Semantic and Depth-Guided Bird's-Eye View Transformation for 3D Multimodal Occupancy Prediction [8.723840755505817]
SDG-OCCと呼ばれる新しいマルチモーダル占有予測ネットワークを提案する。ジョイントセマンティックとディープ誘導ビュー変換と、融合により占有されるアクティブ蒸留が組み込まれている。提案手法は,Occ3D-nuScenesデータセットをリアルタイムに処理することで,最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2025-07-22T23:49:40Z)
Efficient Multimodal 3D Object Detector via Instance-Level Contrastive Distillation [17.634678949648208]
提案したICDフレームワークとCLFM(Cross Linear Attention Fusion Module)を組み込んだ高速かつ効果的なマルチモーダル3Dオブジェクト検出器を提案する。我々の3Dオブジェクト検出器は、より優れた効率を実現しつつ、最先端(SOTA)手法より優れています。
論文参考訳（メタデータ） (2025-03-17T08:26:11Z)
Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文参考訳（メタデータ） (2024-10-09T22:57:47Z)
OccFusion: Depth Estimation Free Multi-sensor Fusion for 3D Occupancy Prediction [5.285847977231642]
マルチセンサ融合に基づく自律走行システムの3次元占有予測従来の核融合による3次元占有予測は2次元画像特徴の深度推定に頼っていた。深度推定自由マルチモーダル融合フレームワークOccFusionを提案する。
論文参考訳（メタデータ） (2024-03-08T14:07:37Z)
MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文参考訳（メタデータ） (2023-07-18T11:26:02Z)
DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文参考訳（メタデータ） (2022-12-15T14:18:47Z)
Bridging the View Disparity of Radar and Camera Features for Multi-modal Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文参考訳（メタデータ） (2022-08-25T13:21:37Z)
BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。 3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文参考訳（メタデータ） (2022-05-26T17:59:35Z)
Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。 DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文参考訳（メタデータ） (2022-05-23T23:05:07Z)
EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。 KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文参考訳（メタデータ） (2021-12-21T10:48:34Z)
VPFNet: Voxel-Pixel Fusion Network for Multi-class 3D Object Detection [5.12292602924464]
本稿では,Voxel-Pixel Fusion Network (VPFNet) という,核融合に基づく3次元物体検出ネットワークを提案する。提案手法は,マルチレベル難易度下でのマルチクラス3Dオブジェクト検出タスクに対して,KITTIベンチマークを用いて評価する。平均平均精度(mAP)において、すべての最先端手法より優れていることを示す。
論文参考訳（メタデータ） (2021-11-01T14:17:09Z)
Deep Continuous Fusion for Multi-Sensor 3D Object Detection [103.5060007382646]
本稿では,LIDARとカメラを併用して高精度な位置検出を実現する3Dオブジェクト検出器を提案する。我々は,連続畳み込みを利用して画像とlidar特徴マップを異なるレベルの解像度で融合する,エンドツーエンド学習可能なアーキテクチャを設計した。
論文参考訳（メタデータ） (2020-12-20T18:43:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。