論文の概要: CMHANet: A Cross-Modal Hybrid Attention Network for Point Cloud Registration
- arxiv url: http://arxiv.org/abs/2603.12721v1
- Date: Fri, 13 Mar 2026 07:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.958566
- Title: CMHANet: A Cross-Modal Hybrid Attention Network for Point Cloud Registration
- Title(参考訳): CMHANet: ポイントクラウド登録のためのクロスプラットフォームハイブリッドアテンションネットワーク
- Authors: Dongxu Zhang, Yingsen Wang, Yiding Sun, Haoran Xu, Peilin Fan, Jihua Zhu,
- Abstract要約: 本稿では,クロスモーダルハイブリッドアテンションネットワークであるCMHANetを提案する。
本手法は2次元画像からのリッチな文脈情報の融合と3次元点雲の幾何学的詳細を融合する。
提案手法は,登録精度と総合ロバスト性の両方を大幅に向上し,現在の技術より優れていることを示す。
- 参考スコア(独自算出の注目度): 26.457061044468915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust point cloud registration is a fundamental task in 3D computer vision and geometric deep learning, essential for applications such as large-scale 3D reconstruction, augmented reality, and scene understanding. However, the performance of established learning-based methods often degrades in complex, real world scenarios characterized by incomplete data, sensor noise, and low overlap regions. To address these limitations, we propose CMHANet, a novel Cross-Modal Hybrid Attention Network. Our method integrates the fusion of rich contextual information from 2D images with the geometric detail of 3D point clouds, yielding a comprehensive and resilient feature representation. Furthermore, we introduce an innovative optimization function based on contrastive learning, which enforces geometric consistency and significantly improves the model's robustness to noise and partial observations. We evaluated CMHANet on the 3DMatch and the challenging 3DLoMatch datasets. \rev{Additionally, zero-shot evaluations on the TUM RGB-D SLAM dataset verify the model's generalization capability to unseen domains.} The experimental results demonstrate that our method achieves substantial improvements in both registration accuracy and overall robustness, outperforming current techniques. We also release our code in \href{https://github.com/DongXu-Zhang/CMHANet}{https://github.com/DongXu-Zhang/CMHANet}.
- Abstract(参考訳): ロバストポイントクラウドの登録は、3Dコンピュータビジョンと幾何学的深層学習の基本的なタスクであり、大規模な3D再構成、拡張現実、シーン理解などのアプリケーションに必須である。
しかし、確立された学習に基づく手法の性能は、不完全なデータ、センサノイズ、低重複領域を特徴とする複雑な実世界のシナリオで劣化することが多い。
これらの制約に対処するため,新しいクロスモーダルハイブリッドアテンションネットワークであるCMHANetを提案する。
提案手法は,2次元画像からのリッチな文脈情報と3次元点雲の幾何学的詳細を融合することにより,包括的かつ弾力的な特徴表現を実現する。
さらに、幾何的整合性を適用し、ノイズや部分的な観測に対するモデルの頑健性を大幅に改善する、コントラスト学習に基づく革新的な最適化関数を導入する。
CMHANetを3DMatchおよび3DLoMatchデータセット上で評価した。
さらに、TUM RGB-D SLAMデータセットのゼロショット評価は、モデルが目に見えない領域に一般化する能力を検証する。
実験の結果,本手法は登録精度と総合ロバスト性の両方を大幅に向上し,現在の技術より優れることがわかった。
また、コードも \href{https://github.com/DongXu-Zhang/CMHANet}{https://github.com/DongXu-Zhang/CMHANet} でリリースしています。
関連論文リスト
- MASt3R-Fusion: Integrating Feed-Forward Visual Model with IMU, GNSS for High-Functionality SLAM [12.158063913401575]
フィードフォワード・ポイントマップ・レグレッションと相補的なセンサ情報を統合するマルチセンサ支援視覚SLAMフレームワークMASt3R-Fusionを提案する。
実時間スライディングウインドウ最適化とアグレッシブループ閉鎖を伴う大域的最適化の両立が可能な階層的因子グラフ設計法を開発した。
我々は、公開ベンチマークと自己収集データセットの両方に対するアプローチを評価し、精度とロバスト性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-09-25T05:26:28Z) - No Need for Real 3D: Fusing 2D Vision with Pseudo 3D Representations for Robotic Manipulation Learning [4.857549394680453]
NoReal3D: 3DStructureFormerは、モノクロ画像を幾何学的に意味のある擬似点雲の特徴に変換することができる学習可能な3D知覚モジュールである。
筆者らのフレームワークは,3Dポイントクラウド獲得に伴う実質的なコストを完全に排除しつつ,ロボットの3D空間構造理解を強化する。
論文 参考訳(メタデータ) (2025-09-20T04:43:42Z) - TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - DeCoTR: Enhancing Depth Completion with 2D and 3D Attentions [41.55908366474901]
本研究では,2次元と3次元の両方の注意を生かし,高精度な深度補完を実現する手法を提案する。
提案手法であるDeCoTRを,確立した深度補完ベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-18T19:22:55Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。