論文の概要: DINOReg: Strong Point Cloud Registration with Vision Foundation Model
- arxiv url: http://arxiv.org/abs/2509.24370v1
- Date: Mon, 29 Sep 2025 07:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.809902
- Title: DINOReg: Strong Point Cloud Registration with Vision Foundation Model
- Title(参考訳): DINOReg:ビジョンファウンデーションモデルによる強力なクラウド登録
- Authors: Congjia Chen, Yufu Qu,
- Abstract要約: ポイントクラウドの登録は、3Dコンピュータビジョンにおける基本的なタスクである。
近年の研究では、RGB-Dデータから色情報を特徴抽出に取り入れている。
視覚情報と幾何学情報の両方を十分に活用する登録ネットワークであるDINORegを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point cloud registration is a fundamental task in 3D computer vision. Most existing methods rely solely on geometric information for feature extraction and matching. Recently, several studies have incorporated color information from RGB-D data into feature extraction. Although these methods achieve remarkable improvements, they have not fully exploited the abundant texture and semantic information in images, and the feature fusion is performed in an image-lossy manner, which limit their performance. In this paper, we propose DINOReg, a registration network that sufficiently utilizes both visual and geometric information to solve the point cloud registration problem. Inspired by advances in vision foundation models, we employ DINOv2 to extract informative visual features from images, and fuse visual and geometric features at the patch level. This design effectively combines the rich texture and global semantic information extracted by DINOv2 with the detailed geometric structure information captured by the geometric backbone. Additionally, a mixed positional embedding is proposed to encode positional information from both image space and point cloud space, which enhances the model's ability to perceive spatial relationships between patches. Extensive experiments on the RGBD-3DMatch and RGBD-3DLoMatch datasets demonstrate that our method achieves significant improvements over state-of-the-art geometry-only and multi-modal registration methods, with a 14.2% increase in patch inlier ratio and a 15.7% increase in registration recall. The code is publicly available at https://github.com/ccjccjccj/DINOReg.
- Abstract(参考訳): ポイントクラウドの登録は、3Dコンピュータビジョンにおける基本的なタスクである。
既存の手法の多くは、特徴抽出とマッチングのために幾何学的情報のみに依存している。
近年,RGB-Dデータから得られる色情報を特徴抽出に取り入れた研究がいくつかある。
これらの手法は目覚ましい改善が得られたが、画像中の豊富なテクスチャや意味情報を十分に活用することはできず、特徴融合は画像のロッキーな方法で行われ、性能が制限される。
本稿では,視覚情報と幾何学情報の両方を十分に活用してポイントクラウド登録問題を解決するための登録ネットワークであるDINORegを提案する。
視覚基礎モデルの進歩に触発され、DINOv2を用いて画像から情報的視覚特徴を抽出し、パッチレベルで視覚的・幾何学的特徴を融合する。
この設計は、DINOv2によって抽出されたリッチテクスチャとグローバルセマンティック情報と、幾何学的バックボーンによって取得された詳細な幾何学的構造情報とを効果的に組み合わせている。
さらに、画像空間と点雲空間の両方の位置情報をエンコードするために、混合的な位置埋め込みを提案し、パッチ間の空間的関係を知覚するモデルの能力を高めた。
RGBD-3DMatchとRGBD-3DLoMatchデータセットの大規模な実験により、我々の手法は、最先端の幾何学的およびマルチモーダルな登録方法よりも大幅に改善され、14.2%のパッチ不整合率と15.7%の登録リコールが得られた。
コードはhttps://github.com/ccjccjccj/DINOReg.comで公開されている。
関連論文リスト
- ViGG: Robust RGB-D Point Cloud Registration using Visual-Geometric Mutual Guidance [18.052751061895215]
ViGGは相互誘導を用いた堅牢なRGB-D登録方式である。
3DMatch, ScanNet, KITTIデータセットを用いた実験により, この手法は, 学習自由環境と学習ベース環境の両方において, 最新の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-28T06:27:37Z) - Cross-modal feature fusion for robust point cloud registration with ambiguous geometry [6.742883954812066]
本稿では,ポイントクラウド登録のためのクロスモーダル特徴融合法を提案する。
2段階の3Dポイントクラウド機能と2Dイメージ機能を統合している。
すべてのベンチマークで最先端の登録性能を達成する。
論文 参考訳(メタデータ) (2025-05-19T13:22:46Z) - DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation [66.7989548848166]
既存のアプローチでは、深度マップとRGBイメージをエンコードし、それらの間に特徴融合を行い、より堅牢な予測を可能にする。
我々はDFormerv2という強力なRGBDエンコーダを提案し、ニューラルネットワークで深度情報をエンコードするのではなく、深度マップを幾何先行として明示的に利用する。
我々のゴールは、すべての画像パッチトークンの深さと空間距離から幾何学的手がかりを抽出し、それを用いて、自己注意における注意重みを割り当てることである。
論文 参考訳(メタデータ) (2025-04-07T03:06:07Z) - ZeroReg: Zero-Shot Point Cloud Registration with Foundation Models [77.84408427496025]
最先端の3Dポイントクラウド登録方法は、トレーニングのためにラベル付き3Dデータセットに依存している。
我々は2次元基礎モデルを用いて3次元対応を予測するゼロショット登録手法であるZeroRegを紹介する。
論文 参考訳(メタデータ) (2023-12-05T11:33:16Z) - PointMBF: A Multi-scale Bidirectional Fusion Network for Unsupervised
RGB-D Point Cloud Registration [6.030097207369754]
本稿では,RGB画像と深度画像から生成された点雲との間に,マルチスケールの双方向融合を実現するネットワークを提案する。
提案手法は,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-09T08:13:46Z) - GQE-Net: A Graph-based Quality Enhancement Network for Point Cloud Color
Attribute [51.4803148196217]
本稿では,点雲の色歪みを低減するため,グラフベースの品質向上ネットワーク(GQE-Net)を提案する。
GQE-Netは、幾何学情報を補助入力とグラフ畳み込みブロックとして使用し、局所的な特徴を効率的に抽出する。
実験結果から,本手法は最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2023-03-24T02:33:45Z) - PCR-CG: Point Cloud Registration via Deep Explicit Color and Geometry [28.653015760036602]
色信号を幾何学表現に明示的に埋め込む新しい3Dポイントクラウド登録モジュールを提案する。
我々の重要な貢献は、色信号から学習した深い特徴を幾何学的表現に埋め込む2D-3Dクロスモダリティ学習アルゴリズムである。
本研究は, 登録作業において, 鮮明な深色特徴を点雲に関連付けるという大きな利点を明らかにした。
論文 参考訳(メタデータ) (2023-02-28T08:50:17Z) - Improving RGB-D Point Cloud Registration by Learning Multi-scale Local
Linear Transformation [38.64501645574878]
ポイントクラウド登録は、2つのポイントクラウドスキャン間の幾何学的変換を推定することを目的としている。
近年,RGB-Dデータをより正確な対応に利用しようと試みている。
マルチスケールな局所線形変換を用いたGAVE(Geometry-Aware Visual Feature Extractor)を提案する。
論文 参考訳(メタデータ) (2022-08-31T14:36:09Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes [93.82668222075128]
RGB-Dシーンに対するImVoteNetと呼ばれる3次元検出アーキテクチャを提案する。
ImVoteNetは、画像に2D票、ポイントクラウドに3D票を投じることに基づいている。
挑戦的なSUN RGB-Dデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2020-01-29T05:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。