論文の概要: DepthFusion: Depth-Aware Hybrid Feature Fusion for LiDAR-Camera 3D Object Detection
- arxiv url: http://arxiv.org/abs/2505.07398v1
- Date: Mon, 12 May 2025 09:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.340599
- Title: DepthFusion: Depth-Aware Hybrid Feature Fusion for LiDAR-Camera 3D Object Detection
- Title(参考訳): 深度フュージョン:LiDARカメラ3Dオブジェクト検出のための深度対応ハイブリッド機能フュージョン
- Authors: Mingqian Ji, Jian Yang, Shanshan Zhang,
- Abstract要約: 最先端のLiDARカメラ3Dオブジェクト検出器は通常、特徴融合に焦点を当てている。
深度が統計的解析や可視化によって異なるため、様々なモーダルが異なる役割を担っていることを最初に観察する。
本稿では,ポイントクラウドとRGB画像の重み付けをガイドするDepth-Aware Hybrid Feature Fusion戦略を提案する。
- 参考スコア(独自算出の注目度): 32.07206206508925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art LiDAR-camera 3D object detectors usually focus on feature fusion. However, they neglect the factor of depth while designing the fusion strategy. In this work, we are the first to observe that different modalities play different roles as depth varies via statistical analysis and visualization. Based on this finding, we propose a Depth-Aware Hybrid Feature Fusion (DepthFusion) strategy that guides the weights of point cloud and RGB image modalities by introducing depth encoding at both global and local levels. Specifically, the Depth-GFusion module adaptively adjusts the weights of image Bird's-Eye-View (BEV) features in multi-modal global features via depth encoding. Furthermore, to compensate for the information lost when transferring raw features to the BEV space, we propose a Depth-LFusion module, which adaptively adjusts the weights of original voxel features and multi-view image features in multi-modal local features via depth encoding. Extensive experiments on the nuScenes and KITTI datasets demonstrate that our DepthFusion method surpasses previous state-of-the-art methods. Moreover, our DepthFusion is more robust to various kinds of corruptions, outperforming previous methods on the nuScenes-C dataset.
- Abstract(参考訳): 最先端のLiDARカメラ3Dオブジェクト検出器は通常、特徴融合に焦点を当てている。
しかし、彼らは融合戦略を設計しながら深さの因子を無視した。
本研究は, 統計的解析と可視化により, 深度が変化するにつれて, 異なるモーダルが異なる役割を担っていることを初めて観察するものである。
そこで本研究では,Depth-Aware Hybrid Feature Fusion (DepthFusion) 戦略を提案する。
具体的には、Depth-GFusionモジュールは、ディープエンコーディングを介してマルチモーダルグローバル機能における画像BirdのEye-View(BEV)機能の重みを適応的に調整する。
さらに,BEV空間に生の機能を移す際に失われる情報を補うために,Depth-LFusionモジュールを提案する。
nuScenesとKITTIデータセットに関する大規模な実験は、私たちのDepthFusionメソッドが従来の最先端の方法を上回ることを示した。
さらに、私たちのDepthFusionは、さまざまな種類の汚職に対してより堅牢で、nuScenes-Cデータセットの以前の方法よりも優れています。
関連論文リスト
- Language-Depth Navigated Thermal and Visible Image Fusion [11.473316170288166]
既存の熱可視画像融合は、主に検出タスクに焦点を当てており、深さなどの他の重要な情報を無視している。
テキスト誘導・深度駆動型赤外線・可視画像融合ネットワークを提案する。
これは、自律運転や救助任務のようなアプリケーションにおける正確な認識と効率的な操作をサポートする。
論文 参考訳(メタデータ) (2025-03-11T17:55:22Z) - DepthLab: From Partial to Complete [80.58276388743306]
不足する値は、幅広いアプリケーションにわたる深度データにとって共通の課題である。
この作業は、イメージ拡散プリエントを利用した基礎深度塗装モデルであるDepthLabと、このギャップを埋めるものだ。
提案手法は,3Dシーンのインペイント,テキストから3Dシーン生成,DUST3Rによるスパースビュー再構成,LiDAR深度補完など,様々なダウンストリームタスクにおいて有用であることを示す。
論文 参考訳(メタデータ) (2024-12-24T04:16:38Z) - Depth Estimation Based on 3D Gaussian Splatting Siamese Defocus [14.354405484663285]
本稿では,3次元幾何学における深さ推定のための3次元ガウススプラッティングとシームズネットワークに基づく自己教師型フレームワークを提案する。
提案したフレームワークは、人工的に合成されたデータセットと実際のぼやけたデータセットの両方で検証されている。
論文 参考訳(メタデータ) (2024-09-18T21:36:37Z) - Robust Depth Enhancement via Polarization Prompt Fusion Tuning [112.88371907047396]
様々な深度センサによる不正確な深度測定を改善するために偏光イメージングを利用するフレームワークを提案する。
まず、偏光データとセンサ深度マップから高密度で完全な深度マップを推定するために、ニューラルネットワークを訓練した学習ベースの戦略を採用する。
大規模データセット上で事前学習したRGBモデルを有効に活用するためのPPFT(Polarization Prompt Fusion Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-04-05T17:55:33Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。
モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。
提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文 参考訳(メタデータ) (2019-12-30T10:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。