論文の概要: Look Before You Fuse: 2D-Guided Cross-Modal Alignment for Robust 3D Detection
- arxiv url: http://arxiv.org/abs/2507.16861v2
- Date: Thu, 07 Aug 2025 07:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 16:47:39.238671
- Title: Look Before You Fuse: 2D-Guided Cross-Modal Alignment for Robust 3D Detection
- Title(参考訳): 2D-Guided Cross-Modal Alignment for Robust 3D Detection
- Authors: Xiang Li, Zhangchi Hu, Xiao Xu, Bin Kong,
- Abstract要約: 既存の手法は、LiDARとカメラの特徴の空間的ずれに悩まされている。
このミスアライメントの根本原因は、キャリブレーションの不正確さとローリングシャッター効果から生じるプロジェクションエラーにある。
本稿では,PGDCからの残留雑音を抑えるために不連続認識幾何融合を導入し,背景境界における鋭い深度遷移を明示的に促進する。
提案手法は,mAPとNDSをそれぞれ71.5%,73.6%としたnuScenes検証データセット上でのSOTA性能を実現する。
- 参考スコア(独自算出の注目度): 7.448164560761331
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Integrating LiDAR and camera inputs into a unified Bird's-Eye-View (BEV) representation is crucial for enhancing 3D perception capabilities of autonomous vehicles. However, existing methods suffer from spatial misalignment between LiDAR and camera features, which causes inaccurate depth supervision in camera branch and erroneous fusion during cross-modal feature aggregation. The root cause of this misalignment lies in projection errors, stemming from calibration inaccuracies and rolling shutter effect. The key insight of this work is that locations of these projection errors are not random but highly predictable, as they are concentrated at object-background boundaries which 2D detectors can reliably identify. Based on this, our main motivation is to utilize 2D object priors to pre-align cross-modal features before fusion. To address local misalignment, we propose Prior Guided Depth Calibration (PGDC), which leverages 2D priors to alleviate misalignment and preserve correct cross-modal feature pairs. To resolve global misalignment, we introduce Discontinuity Aware Geometric Fusion (DAGF) to suppress residual noise from PGDC and explicitly enhance sharp depth transitions at object-background boundaries, yielding a structurally aware representation. To effectively utilize these aligned representations, we incorporate Structural Guidance Depth Modulator (SGDM), using a gated attention mechanism to efficiently fuse aligned depth and image features. Our method achieves SOTA performance on nuScenes validation dataset, with its mAP and NDS reaching 71.5% and 73.6% respectively
- Abstract(参考訳): LiDARとカメラ入力を統一されたBird's-Eye-View(BEV)表現に統合することは、自動運転車の3D知覚能力を高めるために重要である。
しかし,既存手法ではカメラ機能とLiDARの空間的不整合に悩まされており,カメラブランチにおける不正確な深度監視や,クロスモーダル機能集約時の誤融合が生じる。
このミスアライメントの根本原因は、キャリブレーションの不正確さとローリングシャッター効果から生じるプロジェクションエラーにある。
この研究の重要な洞察は、これらの投影誤差の位置はランダムではなく、高度に予測可能であり、2次元検出器が確実に識別できる対象-背景境界に集中しているということである。
本研究の主な動機は, 融合前の2次元オブジェクトを, 相互モーダルな特徴に前向きに利用することである。
局所的な不整合に対処するために,2次元の事前補正を有効活用し,不整合を緩和し,適切なクロスモーダルな特徴対を保たせるPGDC(Presideed Guided Depth Calibration)を提案する。
グローバルな不整合を解決するため, PGDCからの残留雑音を抑えるために不連続認識幾何融合(DAGF)を導入し, 背景境界における鋭い深度遷移を明示的に促進し, 構造的に認識された表現を与える。
これらのアライメント表現を効果的に活用するために、ゲートアテンション機構を用いて、アライメント深度と画像特徴を効率的に融合する構造誘導深度変調器(SGDM)を組み込んだ。
提案手法は,mAPとNDSをそれぞれ71.5%,73.6%としたnuScenes検証データセット上でのSOTA性能を実現する。
関連論文リスト
- DF-Calib: Targetless LiDAR-Camera Calibration via Depth Flow [30.56092814783138]
DF-Calibは, キャリブレーションをモード内深さ流量推定問題として再構成するLiDARカメラキャリブレーション法である。
DF-Calibは、カメラ画像から深度マップを推定し、疎LiDAR投影深度マップを完成させる。
本稿では,有効画素を優先する信頼性マップを導入し,深度フロー推定の精度を高めるために,知覚的に重み付けされたスパースフロー損失を提案する。
論文 参考訳(メタデータ) (2025-04-02T07:09:44Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - Toward Accurate Camera-based 3D Object Detection via Cascade Depth
Estimation and Calibration [20.82054596017465]
最近の3次元物体検出は、画像から3次元特徴空間への変換の精度によって制限されている。
本稿では,カメラを用いた3次元物体検出の基本的な課題である,正確な特徴持ち上げと物体位置決めのための深度情報を効果的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:21:26Z) - P2O-Calib: Camera-LiDAR Calibration Using Point-Pair Spatial Occlusion
Relationship [1.6921147361216515]
本研究では,3次元空間における閉塞関係を用いた2次元3次元エッジポイント抽出に基づく新たなターゲットレスキャリブレーション手法を提案する。
本手法は,高画質カメラ-LiDARキャリブレーションによる実用的応用に寄与する,低誤差かつ高ロバスト性を実現する。
論文 参考訳(メタデータ) (2023-11-04T14:32:55Z) - Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - From One to Many: Dynamic Cross Attention Networks for LiDAR and Camera
Fusion [12.792769704561024]
既存の融合法では、キャリブレーションに基づいて、各3Dポイントを1つの投影された画像ピクセルに調整する傾向がある。
本稿では,動的クロスアテンション(DCA)モジュールを提案する。
Dynamic Cross Attention Network (DCAN) という名称の核融合アーキテクチャは、マルチレベルイメージ機能を活用し、ポイントクラウドの複数の表現に適応する。
論文 参考訳(メタデータ) (2022-09-25T16:10:14Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。
本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。
対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-08-18T19:49:29Z) - LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic
Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。
提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。
これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文 参考訳(メタデータ) (2021-08-17T08:53:11Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。