論文の概要: Native-Domain Cross-Attention for Camera-LiDAR Extrinsic Calibration Under Large Initial Perturbations
- arxiv url: http://arxiv.org/abs/2603.29414v1
- Date: Tue, 31 Mar 2026 08:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.347076
- Title: Native-Domain Cross-Attention for Camera-LiDAR Extrinsic Calibration Under Large Initial Perturbations
- Title(参考訳): 大規模初期摂動下でのカメラ・LiDAR外部校正のためのネイティブドメインクロスアテンション
- Authors: Ni Ou, Zhuo Chen, Xinru Zhang, Junzheng Wang,
- Abstract要約: 既存の学習ベースの手法は、通常、LiDARの点を特徴融合のための深度マップに投影する。
本稿では,画像パッチとLiDARポイントグループを直接ネイティブドメインにアライメントする,外部認識型クロスアテンションフレームワークを提案する。
提案手法は,KITTI症例の88%,nuScenes症例の99%において精度の高い校正が可能であり,第2次ベースラインをはるかに上回っている。
- 参考スコア(独自算出の注目度): 15.420997609418421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate camera-LiDAR fusion relies on precise extrinsic calibration, which fundamentally depends on establishing reliable cross-modal correspondences under potentially large misalignments. Existing learning-based methods typically project LiDAR points into depth maps for feature fusion, which distorts 3D geometry and degrades performance when the extrinsic initialization is far from the ground truth. To address this issue, we propose an extrinsic-aware cross-attention framework that directly aligns image patches and LiDAR point groups in their native domains. The proposed attention mechanism explicitly injects extrinsic parameter hypotheses into the correspondence modeling process, enabling geometry-consistent cross-modal interaction without relying on projected 2D depth maps. Extensive experiments on the KITTI and nuScenes benchmarks demonstrate that our method consistently outperforms state-of-the-art approaches in both accuracy and robustness. Under large extrinsic perturbations, our approach achieves accurate calibration in 88% of KITTI cases and 99% of nuScenes cases, substantially surpassing the second-best baseline. We have open sourced our code on https://github.com/gitouni/ProjFusion to benefit the community.
- Abstract(参考訳): 正確なカメラとLiDARの融合は正確な外在的キャリブレーションに依存しており、これは基本的に、潜在的に大きなミスアライメントの下で信頼性の高いクロスモーダル通信を確立することに依存している。
既存の学習ベースの手法では、LiDARの点を特徴融合の深度マップに投影し、3次元幾何学を歪め、外在的初期化が根本的真理から遠く離れている場合に性能を劣化させる。
この問題に対処するために,画像パッチとLiDARポイントグループを直接ネイティブドメインにアライメントする,外部認識型クロスアテンションフレームワークを提案する。
提案したアテンション機構は, 固有パラメータ仮説を対応モデリングプロセスに明示的に注入し, 投影された2次元深度マップに依存することなく, 幾何一貫性のある相互モーダル相互作用を可能にする。
KITTIとnuScenesベンチマークの大規模な実験により、我々の手法は精度とロバスト性の両方において常に最先端の手法より優れていることが示された。
KITTI症例の88%,nuScenes症例の99%で正確な校正が達成され,第2次ベースラインをはるかに上回る結果となった。
私たちはコミュニティのためにhttps://github.com/gitouni/ProjFusionでコードをオープンソース化しました。
関連論文リスト
- On Accurate and Robust Estimation of 3D and 2D Circular Center: Method and Application to Camera-Lidar Calibration [6.9583467338943485]
共形幾何代数とRANSACに基づく頑健な3次元円の中心推定器を提案する。
また,真の2次元投影中心を復元するための弦長分散最小化法を提案する。
我々のフレームワークは最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2025-11-10T01:43:42Z) - GauSSmart: Enhanced 3D Reconstruction through 2D Foundation Models and Geometric Filtering [50.675710727721786]
2次元基礎モデルと3次元ガウススプラッティング再構成をブリッジするハイブリッド手法であるGauSSmartを提案する。
提案手法は,凸フィルタリングや意味的特徴監視など,確立した2次元コンピュータビジョン技術を統合している。
GauSSmartは既存のGaussian Splattingよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-16T03:38:26Z) - Look Before You Fuse: 2D-Guided Cross-Modal Alignment for Robust 3D Detection [7.448164560761331]
既存の手法は、LiDARとカメラの特徴の空間的ずれに悩まされている。
このミスアライメントの根本原因は、キャリブレーションの不正確さとローリングシャッター効果から生じるプロジェクションエラーにある。
本稿では,PGDCからの残留雑音を抑えるために不連続認識幾何融合を導入し,背景境界における鋭い深度遷移を明示的に促進する。
提案手法は,mAPとNDSをそれぞれ71.5%,73.6%としたnuScenes検証データセット上でのSOTA性能を実現する。
論文 参考訳(メタデータ) (2025-07-21T18:12:22Z) - UniCalib: Targetless LiDAR-Camera Calibration via Probabilistic Flow on Unified Depth Representations [30.56092814783138]
DF-Calibは, キャリブレーションをモード内深さ流量推定問題として再構成するLiDARカメラキャリブレーション法である。
DF-Calibは、カメラ画像から深度マップを推定し、疎LiDAR投影深度マップを完成させる。
本稿では,有効画素を優先する信頼性マップを導入し,深度フロー推定の精度を高めるために,知覚的に重み付けされたスパースフロー損失を提案する。
論文 参考訳(メタデータ) (2025-04-02T07:09:44Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - What Really Matters for Learning-based LiDAR-Camera Calibration [50.2608502974106]
本稿では,学習に基づくLiDAR-Cameraキャリブレーションの開発を再考する。
我々は、広く使われているデータ生成パイプラインによる回帰ベースの手法の限界を識別する。
また,入力データ形式と前処理操作がネットワーク性能に与える影響についても検討する。
論文 参考訳(メタデータ) (2025-01-28T14:12:32Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - P2O-Calib: Camera-LiDAR Calibration Using Point-Pair Spatial Occlusion
Relationship [1.6921147361216515]
本研究では,3次元空間における閉塞関係を用いた2次元3次元エッジポイント抽出に基づく新たなターゲットレスキャリブレーション手法を提案する。
本手法は,高画質カメラ-LiDARキャリブレーションによる実用的応用に寄与する,低誤差かつ高ロバスト性を実現する。
論文 参考訳(メタデータ) (2023-11-04T14:32:55Z) - SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。
本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。
対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-08-18T19:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。