論文の概要: Self-Supervised Cross-Modal Learning for Image-to-Point Cloud Registration
- arxiv url: http://arxiv.org/abs/2509.15882v1
- Date: Fri, 19 Sep 2025 11:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.140439
- Title: Self-Supervised Cross-Modal Learning for Image-to-Point Cloud Registration
- Title(参考訳): イメージ・ツー・ポイント・クラウド・レジストレーションのための自己監督型クロスモーダル学習
- Authors: Xingmei Wang, Xiaoyu Hu, Chengkai Huang, Ziyan Zeng, Guohao Nie, Quan Z. Sheng, Lina Yao,
- Abstract要約: CrossI2Pは、クロスモーダル学習と2段階の登録を単一のエンドツーエンドパイプラインで統合する、自己教師型フレームワークである。
我々は、CrossI2Pが、KITTI Odometryベンチマークで23.7%、nuScenesで37.9%、最先端の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 22.360139236823155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bridging 2D and 3D sensor modalities is critical for robust perception in autonomous systems. However, image-to-point cloud (I2P) registration remains challenging due to the semantic-geometric gap between texture-rich but depth-ambiguous images and sparse yet metrically precise point clouds, as well as the tendency of existing methods to converge to local optima. To overcome these limitations, we introduce CrossI2P, a self-supervised framework that unifies cross-modal learning and two-stage registration in a single end-to-end pipeline. First, we learn a geometric-semantic fused embedding space via dual-path contrastive learning, enabling annotation-free, bidirectional alignment of 2D textures and 3D structures. Second, we adopt a coarse-to-fine registration paradigm: a global stage establishes superpoint-superpixel correspondences through joint intra-modal context and cross-modal interaction modeling, followed by a geometry-constrained point-level refinement for precise registration. Third, we employ a dynamic training mechanism with gradient normalization to balance losses for feature alignment, correspondence refinement, and pose estimation. Extensive experiments demonstrate that CrossI2P outperforms state-of-the-art methods by 23.7% on the KITTI Odometry benchmark and by 37.9% on nuScenes, significantly improving both accuracy and robustness.
- Abstract(参考訳): 2Dおよび3Dセンサーのブリッジ化は、自律システムにおける堅牢な認識に不可欠である。
しかし, テクスチャリッチだが深度あいまいな画像と, わずかながら正確な点群と, 局所最適に収束する既存手法の傾向とのセマンティック・ジオメトリ・ギャップにより, 画像間クラウド (I2P) の登録は依然として困難である。
これらの制限を克服するために、クロスモーダル学習と2段階の登録を単一のエンドツーエンドパイプラインで統合する、自己教師型フレームワークであるCrossI2Pを紹介した。
まず,2次元テクスチャと3次元構造のアノテーションのない双方向アライメントを実現するために,二経路コントラスト学習を用いて幾何学的意味融合空間を学習する。
第2に、大域的な段階は、共同モーダル・コンテキストと相互モーダル・インタラクション・モデリングを通じてスーパーポイント・スーパーピクセル対応を確立し、続いて幾何学的に制約されたポイントレベルの精密な精密な登録を行う。
第3に、機能アライメント、対応改善、ポーズ推定の損失のバランスをとるために、勾配正規化を用いた動的トレーニング機構を用いる。
大規模な実験では、CrossI2PはKITTI Odometryベンチマークで23.7%、nuScenesで37.9%、最先端の手法では23.7%、精度と堅牢性の両方で大幅に向上している。
関連論文リスト
- Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - CMR-Agent: Learning a Cross-Modal Agent for Iterative Image-to-Point Cloud Registration [2.400446821380503]
Image-to-point cloud registrationは、ポイントクラウドに対するRGBイメージの相対的なカメラポーズを決定することを目的としている。
学習に基づくほとんどの手法は、反復最適化のためのフィードバック機構を使わずに、特徴空間における2D-3D点対応を確立する。
本稿では,登録手順を反復マルコフ決定プロセスとして再構成し,カメラポーズの漸進的な調整を可能にすることを提案する。
論文 参考訳(メタデータ) (2024-08-05T11:40:59Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。