論文の概要: NeRF-Guided Unsupervised Learning of RGB-D Registration
- arxiv url: http://arxiv.org/abs/2405.00507v1
- Date: Wed, 1 May 2024 13:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 15:37:50.381881
- Title: NeRF-Guided Unsupervised Learning of RGB-D Registration
- Title(参考訳): 非線形誘導型RGB-Dレジストレーションの教師なし学習
- Authors: Zhinan Yu, Zheng Qin, Yijie Tang, Yongjun Wang, Renjiao Yi, Chenyang Zhu, Kai Xu,
- Abstract要約: 教師なしRGB-D登録のための新しいフレーム・ツー・モデル最適化フレームワークNeRF-URを提案する。
我々は、シーンのグローバルモデルとしてニューラルラジアンス場(NeRF)を活用し、入力とNeRFレンダリングフレーム間の整合性を利用してポーズ最適化を行う。
提案手法は,2つの屋内RGB-DデータセットであるScanNetと3DMatchにおいて,最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 14.846667825599887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on training a robust RGB-D registration model without ground-truth pose supervision. Existing methods usually adopt a pairwise training strategy based on differentiable rendering, which enforces the photometric and the geometric consistency between the two registered frames as supervision. However, this frame-to-frame framework suffers from poor multi-view consistency due to factors such as lighting changes, geometry occlusion and reflective materials. In this paper, we present NeRF-UR, a novel frame-to-model optimization framework for unsupervised RGB-D registration. Instead of frame-to-frame consistency, we leverage the neural radiance field (NeRF) as a global model of the scene and use the consistency between the input and the NeRF-rerendered frames for pose optimization. This design can significantly improve the robustness in scenarios with poor multi-view consistency and provides better learning signal for the registration model. Furthermore, to bootstrap the NeRF optimization, we create a synthetic dataset, Sim-RGBD, through a photo-realistic simulator to warm up the registration model. By first training the registration model on Sim-RGBD and later unsupervisedly fine-tuning on real data, our framework enables distilling the capability of feature extraction and registration from simulation to reality. Our method outperforms the state-of-the-art counterparts on two popular indoor RGB-D datasets, ScanNet and 3DMatch. Code and models will be released for paper reproduction.
- Abstract(参考訳): 本稿では,地味なポーズ監視を伴わない堅牢なRGB-D登録モデルのトレーニングに焦点をあてる。
既存の手法は通常、異なるレンダリングに基づくペアワイズトレーニング戦略を採用しており、これは2つの登録フレーム間の光度と幾何的一貫性を監督するものである。
しかし、このフレーム・ツー・フレーム・フレームワークは、照明の変化、幾何学的閉塞、反射材料などの要因により、多面的な一貫性に悩まされている。
本稿では,教師なしRGB-D登録のための新しいフレーム・ツー・モデル最適化フレームワークNeRF-URを提案する。
フレーム間整合性の代わりに、シーンのグローバルモデルとしてニューラル放射場(NeRF)を活用し、入力とNeRFレンダリングフレーム間の整合性を利用してポーズ最適化を行う。
この設計は、マルチビュー一貫性の低いシナリオにおける堅牢性を大幅に向上させ、登録モデルのためのより良い学習信号を提供する。
さらに、NeRF最適化をブートストラップするために、フォトリアリスティックシミュレータを通して合成データセットSim-RGBDを作成し、登録モデルをウォームアップする。
まず、Sim-RGBDで登録モデルをトレーニングし、その後、実データで教師なし微調整を行うことで、本フレームワークは、特徴抽出能力の蒸留とシミュレーションから現実への登録を可能にする。
提案手法は,2つの屋内RGB-DデータセットであるScanNetと3DMatchにおいて,最先端の手法よりも優れている。
コードとモデルは、紙の再生のためにリリースされます。
関連論文リスト
- CMR-Agent: Learning a Cross-Modal Agent for Iterative Image-to-Point Cloud Registration [2.400446821380503]
Image-to-point cloud registrationは、ポイントクラウドに対するRGBイメージの相対的なカメラポーズを決定することを目的としている。
学習に基づくほとんどの手法は、反復最適化のためのフィードバック機構を使わずに、特徴空間における2D-3D点対応を確立する。
本稿では,登録手順を反復マルコフ決定プロセスとして再構成し,カメラポーズの漸進的な調整を可能にすることを提案する。
論文 参考訳(メタデータ) (2024-08-05T11:40:59Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - MSDA: Monocular Self-supervised Domain Adaptation for 6D Object Pose
Estimation [12.773040823634908]
実画像からラベル付き6Dポーズを取得するための自己教師付きドメイン適応手法を提案する。
まず、合成RGB画像を用いてモデルを事前訓練し、次に実RGB(-D)画像を用いて事前訓練されたモデルを微調整する。
我々は,本手法が完全教師付き手法と同等の性能を発揮することを実験的に実証した。
論文 参考訳(メタデータ) (2023-02-14T19:34:41Z) - CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural
Representations [77.90883737693325]
本稿では,スパース入力センサビューから観測される大規模な屋外運転シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。
これは、NeRFフレームワーク内の占有率と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。
さらに,NeRFモデルと平行に3D Occupancy Grid Maps(OGM)を構築する手法を提案し,この占有グリッドを利用して距離空間のレンダリングのために線に沿った点のサンプリングを改善する。
論文 参考訳(メタデータ) (2022-09-02T17:44:50Z) - VMRF: View Matching Neural Radiance Fields [57.93631771072756]
VMRFは、カメラポーズやカメラポーズの分布に関する事前知識を必要とせずに、効果的なNeRFトレーニングを可能にする、革新的な視野マッチングNeRFである。
VMRFは、不均衡な最適輸送を利用するビューマッチングスキームを導入し、レンダリングされた画像をランダムにカメラのポーズで対応する実画像にマッピングする特徴輸送計画を生成する。
特徴伝達プランをガイダンスとして、レンダリング画像と実画像の相対的なポーズを予測することにより、初期ランダム化されたカメラポーズを補正する新しいポーズキャリブレーション手法を設計する。
論文 参考訳(メタデータ) (2022-07-06T12:26:40Z) - Shape My Face: Registering 3D Face Scans by Surface-to-Surface
Translation [75.59415852802958]
Shape-My-Face (SMF) は、改良されたポイントクラウドエンコーダ、新しい視覚的注意機構、スキップ接続付きグラフ畳み込みデコーダ、特殊口モデルに基づく強力なエンコーダデコーダアーキテクチャである。
私たちのモデルは、トポロジカルにサウンドメッシュを最小限の監視で提供し、より高速なトレーニング時間を提供し、訓練可能なパラメータを桁違いに減らし、ノイズに強く、以前は見られないデータセットに一般化することができます。
論文 参考訳(メタデータ) (2020-12-16T20:02:36Z) - SparseFusion: Dynamic Human Avatar Modeling from Sparse RGBD Images [49.52782544649703]
本稿では,RGBDフレームのスパース集合に基づく3次元人体形状の再構築手法を提案する。
主な課題は、これらのスパースフレームを標準的な3Dモデルにしっかりと融合させる方法だ。
私たちのフレームワークは柔軟で、潜在的なアプリケーションは形状の再構築を超えています。
論文 参考訳(メタデータ) (2020-06-05T18:53:36Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。