Fugu-MT 論文翻訳(概要): Look Before You Fuse: 2D-Guided Cross-Modal Alignment for Robust 3D Detection

論文の概要: Look Before You Fuse: 2D-Guided Cross-Modal Alignment for Robust 3D Detection

arxiv url: http://arxiv.org/abs/2507.16861v1
Date: Mon, 21 Jul 2025 18:12:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-24 22:33:14.696443
Title: Look Before You Fuse: 2D-Guided Cross-Modal Alignment for Robust 3D Detection
Title（参考訳）: 2D-Guided Cross-Modal Alignment for Robust 3D Detection
Authors: Xiang Li,
Abstract要約: 現在の手法は、しばしばカメラとLiDARの特徴の相違によって影響を受ける。この不一致の根本原因は、小さなキャリブレーションの不正確さと車両の動き中のLiDARのローリングシャッター効果から生じるプロジェクションエラーにある。そこで本研究では,2Dプリエントを利用して局所的な不整合を補正し,クロスモーダルな特徴ペアを正しく保持するプリエントガイドデプス(PGDC)を提案する。提案手法は,mAPとNDSをそれぞれ71.5%,73.6%としたnuScenesバリデーションデータセットの最先端性能を実現する。
参考スコア（独自算出の注目度）: 6.063583864878311
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Integrating LiDAR and camera inputs into a unified Bird's-Eye-View (BEV) representation is crucial for enhancing 3D perception capabilities of autonomous vehicles. However, current methods are often affected by misalignment between camera and LiDAR features. This misalignment leads to inaccurate depth supervision in camera branch and erroneous fusion during cross-modal feature aggregation. The root cause of this misalignment lies in projection errors, stemming from minor extrinsic calibration inaccuracies and rolling shutter effect of LiDAR during vehicle motion. In this work, our key insight is that these projection errors are predominantly concentrated at object-background boundaries, which are readily identified by 2D detectors. Based on this, our main motivation is to utilize 2D object priors to pre-align cross-modal features before fusion. To address local misalignment, we propose Prior Guided Depth Calibration (PGDC), which leverages 2D priors to correct local misalignment and preserve correct cross-modal feature pairs. To resolve global misalignment, we introduce Discontinuity Aware Geometric Fusion (DAGF) to process calibrated results from PGDC, suppressing noise and explicitly enhancing sharp transitions at object-background boundaries. To effectively utilize these transition-aware depth representations, we incorporate Structural Guidance Depth Modulator (SGDM), using a gated attention mechanism to efficiently fuse aligned depth and image features. Our proposed method achieves state-of-the-art performance on nuScenes validation dataset, with its mAP and NDS reaching 71.5% and 73.6% respectively.
Abstract（参考訳）: LiDARとカメラ入力を統一されたBird's-Eye-View(BEV)表現に統合することは、自動運転車の3D知覚能力を高めるために重要である。しかし、現在の手法はカメラとLiDARの特徴の相違によってしばしば影響を受ける。このミスアライメントは、カメラブランチにおける不正確な深さの監視と、クロスモーダルな特徴集約時の誤融合につながる。このミスアライメントの根本原因は、小さな外因性キャリブレーションの不正確さと車両の動き中のLiDARのローリングシャッター効果から生じるプロジェクションエラーにある。この研究において、これらの投影誤差は、主に2次元検出器によって容易に識別される対象-背景境界に集中している。本研究の主な動機は, 融合前の2次元オブジェクトを, 相互モーダルな特徴に前向きに利用することである。局所的な不整合に対処するため, 2次元の事前補正を応用し, 整合性を保ち, クロスモーダルな特徴対を維持するPGDC(Presideed Guided Depth Calibration)を提案する。グローバルなミスアライメントを解決するため,PGDCの校正結果を処理し,ノイズを抑え,背景境界におけるシャープな遷移を明示的に促進するために,不連続認識幾何融合(DAGF)を導入する。これらの遷移認識深度表現を効果的に活用するために、ゲートアテンション機構を用いて構造誘導深度変調器(SGDM)を組み込んで、整列深度と画像特徴を効率的に融合させる。提案手法は,mAPとNDSをそれぞれ71.5%,73.6%としたnuScenesバリデーションデータセットの最先端性能を実現する。

関連論文リスト

DF-Calib: Targetless LiDAR-Camera Calibration via Depth Flow [30.56092814783138]
DF-Calibは, キャリブレーションをモード内深さ流量推定問題として再構成するLiDARカメラキャリブレーション法である。 DF-Calibは、カメラ画像から深度マップを推定し、疎LiDAR投影深度マップを完成させる。本稿では,有効画素を優先する信頼性マップを導入し,深度フロー推定の精度を高めるために,知覚的に重み付けされたスパースフロー損失を提案する。
論文参考訳（メタデータ） (2025-04-02T07:09:44Z)
Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-22T14:42:27Z)
Toward Accurate Camera-based 3D Object Detection via Cascade Depth Estimation and Calibration [20.82054596017465]
最近の3次元物体検出は、画像から3次元特徴空間への変換の精度によって制限されている。本稿では,カメラを用いた3次元物体検出の基本的な課題である,正確な特徴持ち上げと物体位置決めのための深度情報を効果的に学習する方法を提案する。
論文参考訳（メタデータ） (2024-02-07T14:21:26Z)
P2O-Calib: Camera-LiDAR Calibration Using Point-Pair Spatial Occlusion Relationship [1.6921147361216515]
本研究では,3次元空間における閉塞関係を用いた2次元3次元エッジポイント抽出に基づく新たなターゲットレスキャリブレーション手法を提案する。本手法は,高画質カメラ-LiDARキャリブレーションによる実用的応用に寄与する,低誤差かつ高ロバスト性を実現する。
論文参考訳（メタデータ） (2023-11-04T14:32:55Z)
Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文参考訳（メタデータ） (2022-12-10T10:54:41Z)
From One to Many: Dynamic Cross Attention Networks for LiDAR and Camera Fusion [12.792769704561024]
既存の融合法では、キャリブレーションに基づいて、各3Dポイントを1つの投影された画像ピクセルに調整する傾向がある。本稿では,動的クロスアテンション(DCA)モジュールを提案する。 Dynamic Cross Attention Network (DCAN) という名称の核融合アーキテクチャは、マルチレベルイメージ機能を活用し、ポイントクラウドの複数の表現に適応する。
論文参考訳（メタデータ） (2022-09-25T16:10:14Z)
MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-09-07T12:29:29Z)
TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。 TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文参考訳（メタデータ） (2022-03-22T07:15:13Z)
DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文参考訳（メタデータ） (2022-03-15T18:46:06Z)
SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文参考訳（メタデータ） (2021-08-18T19:49:29Z)
LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文参考訳（メタデータ） (2021-08-17T08:53:11Z)
Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文参考訳（メタデータ） (2021-07-08T15:19:36Z)
M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文参考訳（メタデータ） (2021-03-24T13:09:11Z)
Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。アーキテクチャ全体が2段階の融合を促進する。 KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文参考訳（メタデータ） (2020-08-16T11:01:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。