論文の概要: BEVDilation: LiDAR-Centric Multi-Modal Fusion for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2512.02972v1
- Date: Tue, 02 Dec 2025 17:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.989824
- Title: BEVDilation: LiDAR-Centric Multi-Modal Fusion for 3D Object Detection
- Title(参考訳): BEVDilation:3次元物体検出のためのLiDAR中心多モード核融合
- Authors: Guowen Zhang, Chenhang He, Liyi Chen, Lei Zhang,
- Abstract要約: 核融合におけるLiDAR情報を優先する新しいフレームワークであるBEVDilationを提案する。
我々の戦略は,画像深度推定誤差による空間的ずれを効果的に軽減する。
挑戦的なnuScenesベンチマークでは、BEVDilationは最先端のメソッドよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 17.604622218531155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrating LiDAR and camera information in the bird's eye view (BEV) representation has demonstrated its effectiveness in 3D object detection. However, because of the fundamental disparity in geometric accuracy between these sensors, indiscriminate fusion in previous methods often leads to degraded performance. In this paper, we propose BEVDilation, a novel LiDAR-centric framework that prioritizes LiDAR information in the fusion. By formulating image BEV features as implicit guidance rather than naive concatenation, our strategy effectively alleviates the spatial misalignment caused by image depth estimation errors. Furthermore, the image guidance can effectively help the LiDAR-centric paradigm to address the sparsity and semantic limitations of point clouds. Specifically, we propose a Sparse Voxel Dilation Block that mitigates the inherent point sparsity by densifying foreground voxels through image priors. Moreover, we introduce a Semantic-Guided BEV Dilation Block to enhance the LiDAR feature diffusion processing with image semantic guidance and long-range context capture. On the challenging nuScenes benchmark, BEVDilation achieves better performance than state-of-the-art methods while maintaining competitive computational efficiency. Importantly, our LiDAR-centric strategy demonstrates greater robustness to depth noise compared to naive fusion. The source code is available at https://github.com/gwenzhang/BEVDilation.
- Abstract(参考訳): 鳥眼ビュー(BEV)表現におけるLiDARとカメラ情報の統合は、3次元物体検出において有効であることを示す。
しかし、これらのセンサ間の幾何精度の基本的な相違により、従来の方法での無差別融合はしばしば劣化する。
本稿では,新たなLiDAR中心のフレームワークであるBEVDilationを提案する。
画像BEVの特徴を直感的な結合よりも暗黙的なガイダンスとして定式化することにより,画像深度推定誤差による空間的不一致を効果的に軽減する。
さらに、イメージガイダンスは、ポイントクラウドのスパーシリティとセマンティックな制限に対処するために、LiDAR中心のパラダイムを効果的に助けることができます。
具体的には,前景のボクセルを画像の先行部分でデジタイズすることで,固有点間隔を緩和するスパースボクセルダイレレーションブロックを提案する。
さらに、画像意味指導と長距離コンテキストキャプチャによるLiDAR特徴拡散処理を強化するために、セマンティックガイドによるBEV拡張ブロックを導入する。
挑戦的なnuScenesベンチマークでは、BEVDilationは競合計算効率を維持しながら最先端の手法よりも優れたパフォーマンスを達成する。
重要なことは、我々のLiDAR中心の戦略は、単純核融合よりも深いノイズに対する堅牢性を示す。
ソースコードはhttps://github.com/gwenzhang/BEVDilation.comで入手できる。
関連論文リスト
- DensifyBeforehand: LiDAR-assisted Content-aware Densification for Efficient and Quality 3D Gaussian Splatting [1.5576275034099496]
本稿では,Sparse LiDARデータと対応するRGB画像からの単眼深度推定を組み合わせ,既存の3次元ガウス散乱(3DGS)法の限界に対処する。
我々のROI対応サンプリング手法は意味的にも幾何学的にも重要な領域を優先し、密度の高い点雲を生成する。
本手法は,資源消費とトレーニング時間を著しく削減しつつ,最先端技術に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-11-24T16:39:13Z) - SDGOCC: Semantic and Depth-Guided Bird's-Eye View Transformation for 3D Multimodal Occupancy Prediction [8.723840755505817]
SDG-OCCと呼ばれる新しいマルチモーダル占有予測ネットワークを提案する。
ジョイントセマンティックとディープ誘導ビュー変換と、融合により占有されるアクティブ蒸留が組み込まれている。
提案手法は,Occ3D-nuScenesデータセットをリアルタイムに処理することで,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2025-07-22T23:49:40Z) - Physically Based Neural LiDAR Resimulation [4.349248791803596]
提案手法は既存の手法に比べて高精度なLiDARシミュレーションを実現する。
提案手法は,高分解能LiDARスキャンをカメラ視点で生成するなど,高度な再現性を示す。
論文 参考訳(メタデータ) (2025-07-15T19:49:44Z) - Depth3DLane: Monocular 3D Lane Detection via Depth Prior Distillation [9.125062959539699]
限界に対処し、3次元車線検出精度を向上させるためのBEVベースのフレームワークを提案する。
教師モデルから意味深度知識を伝達するために,Depth Prior Distillationを活用する。
本手法は,z軸誤差による最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-25T13:08:41Z) - FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - Fine-grained Image-to-LiDAR Contrastive Distillation with Visual Foundation Models [55.99654128127689]
Visual Foundation Models (VFM) は、弱い教師付きピクセル対ポイントのコントラスト蒸留のためのセマンティックラベルを生成するために使用される。
我々は,空間分布とカテゴリー周波数の不均衡に対応するために,点のサンプリング確率を適応させる。
我々の手法は、下流タスクにおける既存の画像からLiDARへのコントラスト蒸留法を一貫して超越している。
論文 参考訳(メタデータ) (2024-05-23T07:48:19Z) - LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic
Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。
提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。
これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文 参考訳(メタデータ) (2021-08-17T08:53:11Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。