論文の概要: F2M-Reg: Unsupervised RGB-D Point Cloud Registration with Frame-to-Model Optimization
- arxiv url: http://arxiv.org/abs/2405.00507v3
- Date: Thu, 01 May 2025 04:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.7366
- Title: F2M-Reg: Unsupervised RGB-D Point Cloud Registration with Frame-to-Model Optimization
- Title(参考訳): F2M-Reg:フレーム・ツー・モデル最適化による教師なしRGB-Dポイントクラウド登録
- Authors: Zhinan Yu, Zheng Qin, Yijie Tang, Yongjun Wang, Renjiao Yi, Chenyang Zhu, Kai Xu,
- Abstract要約: 教師なしRGB-D点雲登録のためのフレーム・ツー・モデル最適化フレームワークF2M-Regを提案する。
我々は、シーンのグローバルモデルとしてニューラル暗黙の場を活用し、それらをグローバルモデルに登録することで、フレームの推定されたポーズを最適化する。
我々の手法は、特に厳しい照明変更と重なり合いの低いシナリオにおいて、従来の最先端の手法をはるかに上回っている。
- 参考スコア(独自算出の注目度): 14.846667825599887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the problem of unsupervised RGB-D point cloud registration, which aims at training a robust registration model without ground-truth pose supervision. Existing methods usually leverages unposed RGB-D sequences and adopt a frame-to-frame framework based on differentiable rendering to train the registration model, which enforces the photometric and geometric consistency between the two frames for supervision. However, this frame-to-frame framework is vulnerable to inconsistent factors between different frames, e.g., lighting changes, geometry occlusion, and reflective materials, which leads to suboptimal convergence of the registration model. In this paper, we propose a novel frame-to-model optimization framework named F2M-Reg for unsupervised RGB-D point cloud registration. We leverage the neural implicit field as a global model of the scene and optimize the estimated poses of the frames by registering them to the global model, and the registration model is subsequently trained with the optimized poses. Thanks to the global encoding capability of neural implicit field, our frame-to-model framework is significantly more robust to inconsistent factors between different frames and thus can provide better supervision for the registration model. Besides, we demonstrate that F2M-Reg can be further enhanced by a simplistic synthetic warming-up strategy. To this end, we construct a photorealistic synthetic dataset named Sim-RGBD to initialize the registration model for the frame-to-model optimization on real-world RGB-D sequences. Extensive experiments on four challenging benchmarks have shown that our method surpasses the previous state-of-the-art counterparts by a large margin, especially under scenarios with severe lighting changes and low overlap. Our code and models are available at https://github.com/MrIsland/F2M_Reg.
- Abstract(参考訳): 本研究は, 地味なポーズを伴わずにロバストな登録モデルをトレーニングすることを目的とした, 教師なしRGB-Dポイントクラウド登録の問題について検討する。
既存の手法は通常、未提案のRGB-Dシーケンスを活用し、異なるレンダリングに基づくフレーム・ツー・フレームのフレームワークを採用して登録モデルを訓練する。
しかし、このフレーム・ツー・フレーム・フレームワークは、異なるフレーム間の不整合因子(例えば、照明の変化、幾何学的閉塞、反射材料)に弱いため、登録モデルの最適下収束につながる。
本稿では,教師なしRGB-D点雲登録のためのフレーム・ツー・モデル最適化フレームワークF2M-Regを提案する。
我々は、シーンのグローバルモデルとしてニューラル暗黙フィールドを活用し、それらをグローバルモデルに登録することでフレームの推定されたポーズを最適化し、その後、最適化されたポーズで登録モデルを訓練する。
ニューラル暗黙フィールドのグローバルエンコーディング機能のおかげで、我々のフレーム・ツー・モデル・フレームワークは、異なるフレーム間の不整合要因に対して、はるかに堅牢であり、したがって、登録モデルに対するより良い監視を提供することができる。
さらに, F2M-Regは, 簡易な合成温暖化戦略によりさらに強化可能であることを実証した。
そこで本研究では,実世界のRGB-Dシーケンス上でのフレーム・ツー・モデル最適化のための登録モデルを初期化するために,Sim-RGBDというフォトリアリスティックな合成データセットを構築した。
4つの挑戦的ベンチマークの大規模な実験により、我々の手法は従来の最先端の手法をはるかに上回り、特に深刻な照明変更と重複の少ないシナリオにおいて、大きなマージンを突破することが示された。
私たちのコードとモデルはhttps://github.com/MrIsland/F2M_Reg.comで公開されています。
関連論文リスト
- VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。
また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。
ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文 参考訳(メタデータ) (2024-12-28T07:38:23Z) - CMR-Agent: Learning a Cross-Modal Agent for Iterative Image-to-Point Cloud Registration [2.400446821380503]
Image-to-point cloud registrationは、ポイントクラウドに対するRGBイメージの相対的なカメラポーズを決定することを目的としている。
学習に基づくほとんどの手法は、反復最適化のためのフィードバック機構を使わずに、特徴空間における2D-3D点対応を確立する。
本稿では,登録手順を反復マルコフ決定プロセスとして再構成し,カメラポーズの漸進的な調整を可能にすることを提案する。
論文 参考訳(メタデータ) (2024-08-05T11:40:59Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Self-supervised Learning of Event-guided Video Frame Interpolation for
Rolling Shutter Frames [6.62974666987451]
本稿では、任意のフレームレート遅延グローバルシャッター(GS)フレームを2つの連続ローリングシャッター(RS)フレームから回収する難題に挑戦する最初の試みを行う。
本稿では,RSフレーム補正VFIを統一フレームワークでガイドするイベントを利用した,新たな自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-27T14:30:25Z) - MSDA: Monocular Self-supervised Domain Adaptation for 6D Object Pose
Estimation [12.773040823634908]
実画像からラベル付き6Dポーズを取得するための自己教師付きドメイン適応手法を提案する。
まず、合成RGB画像を用いてモデルを事前訓練し、次に実RGB(-D)画像を用いて事前訓練されたモデルを微調整する。
我々は,本手法が完全教師付き手法と同等の性能を発揮することを実験的に実証した。
論文 参考訳(メタデータ) (2023-02-14T19:34:41Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural
Representations [77.90883737693325]
本稿では,スパース入力センサビューから観測される大規模な屋外運転シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。
これは、NeRFフレームワーク内の占有率と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。
さらに,NeRFモデルと平行に3D Occupancy Grid Maps(OGM)を構築する手法を提案し,この占有グリッドを利用して距離空間のレンダリングのために線に沿った点のサンプリングを改善する。
論文 参考訳(メタデータ) (2022-09-02T17:44:50Z) - VMRF: View Matching Neural Radiance Fields [57.93631771072756]
VMRFは、カメラポーズやカメラポーズの分布に関する事前知識を必要とせずに、効果的なNeRFトレーニングを可能にする、革新的な視野マッチングNeRFである。
VMRFは、不均衡な最適輸送を利用するビューマッチングスキームを導入し、レンダリングされた画像をランダムにカメラのポーズで対応する実画像にマッピングする特徴輸送計画を生成する。
特徴伝達プランをガイダンスとして、レンダリング画像と実画像の相対的なポーズを予測することにより、初期ランダム化されたカメラポーズを補正する新しいポーズキャリブレーション手法を設計する。
論文 参考訳(メタデータ) (2022-07-06T12:26:40Z) - Context-Aware Video Reconstruction for Rolling Shutter Cameras [52.28710992548282]
本稿では,文脈対応のGSビデオ再構成アーキテクチャを提案する。
まず、2つのRSフレームの画素が共通のGSフレームに歪むように、左右の運動場を推定する。
そこで,両面閉塞マスクとともにGSフレーム合成を誘導し,高忠実度GSビデオフレームを生成するための改良手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:05:47Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Shape My Face: Registering 3D Face Scans by Surface-to-Surface
Translation [75.59415852802958]
Shape-My-Face (SMF) は、改良されたポイントクラウドエンコーダ、新しい視覚的注意機構、スキップ接続付きグラフ畳み込みデコーダ、特殊口モデルに基づく強力なエンコーダデコーダアーキテクチャである。
私たちのモデルは、トポロジカルにサウンドメッシュを最小限の監視で提供し、より高速なトレーニング時間を提供し、訓練可能なパラメータを桁違いに減らし、ノイズに強く、以前は見られないデータセットに一般化することができます。
論文 参考訳(メタデータ) (2020-12-16T20:02:36Z) - SparseFusion: Dynamic Human Avatar Modeling from Sparse RGBD Images [49.52782544649703]
本稿では,RGBDフレームのスパース集合に基づく3次元人体形状の再構築手法を提案する。
主な課題は、これらのスパースフレームを標準的な3Dモデルにしっかりと融合させる方法だ。
私たちのフレームワークは柔軟で、潜在的なアプリケーションは形状の再構築を超えています。
論文 参考訳(メタデータ) (2020-06-05T18:53:36Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。