論文の概要: Multiplane NeRF-Supervised Disentanglement of Depth and Camera Pose from
Videos
- arxiv url: http://arxiv.org/abs/2210.07181v1
- Date: Thu, 13 Oct 2022 17:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:24:05.167453
- Title: Multiplane NeRF-Supervised Disentanglement of Depth and Camera Pose from
Videos
- Title(参考訳): マルチプレーンNRFによる映像からの深度とカメラポッドの離間
- Authors: Yang Fu, Ishan Misra, Xiaolong Wang
- Abstract要約: 本稿では,奥行きやカメラの微妙なアノテーションを使わずに,入力ビデオフレームを再構成するオートエンコーダ方式を提案する。
次に、デコーダは、奥行きエンコーダ特徴に基づいてマルチプレーンNeRF表現を構築し、推定カメラで入力フレームをレンダリングする。
モデルが学習されると、深度推定、カメラポーズ推定、単一画像の新規ビュー合成など、複数のアプリケーションに適用することができる。
- 参考スコア(独自算出の注目度): 29.601253968190306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to perform self-supervised disentanglement of depth and camera
pose from large-scale videos. We introduce an Autoencoder-based method to
reconstruct the input video frames for training, without using any ground-truth
annotations of depth and camera. The model encoders estimate the monocular
depth and the camera pose. The decoder then constructs a Multiplane NeRF
representation based on the depth encoder feature, and renders the input frames
with the estimated camera. The learning is supervised by the reconstruction
error, based on the assumption that the scene structure does not change in
short periods of time in videos. Once the model is learned, it can be applied
to multiple applications including depth estimation, camera pose estimation,
and single image novel view synthesis. We show substantial improvements over
previous self-supervised approaches on all tasks and even better results than
counterparts trained with camera ground-truths in some applications. Our code
will be made publicly available. Our project page is:
https://oasisyang.github.io/self-mpinerf .
- Abstract(参考訳): 本稿では,大規模ビデオから奥行きとカメラのポーズを自己監督的に切り離すことを提案する。
奥行きとカメラの地中アノテーションを使わずに,入力された映像フレームを再現してトレーニングを行うオートエンコーダ方式を提案する。
モデルエンコーダは単眼深度とカメラのポーズを推定する。
次に、デコーダは深度エンコーダ機能に基づいて多面nerf表現を構築し、推定されたカメラで入力フレームを描画する。
この学習は,映像中のシーン構造が短時間で変化しないという仮定に基づいて,復元誤差によって教師される。
モデルが学習されると、深度推定、カメラポーズ推定、単一画像の新規ビュー合成など、複数のアプリケーションに適用することができる。
従来の自己監視アプローチよりも、すべてのタスクにおいて大幅に改善され、いくつかのアプリケーションでカメラの土台で訓練されたものよりも優れた結果が得られます。
私たちのコードは公開されます。
私たちのプロジェクトページは以下のとおりです。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - MonoNeRF: Learning a Generalizable Dynamic Radiance Field from Monocular
Videos [23.09306118872098]
フレーム間の特徴対応制約と特徴トラジェクトリによる特徴特徴とシーンフローを同時に学習するMonoNeRFを提案する。
実験の結果、MonoNeRFは複数のシーンから学習でき、シーン編集、見えないフレーム合成、高速な新規シーン適応などの新しいアプリケーションをサポートしています。
論文 参考訳(メタデータ) (2022-12-26T09:20:55Z) - ViewNeRF: Unsupervised Viewpoint Estimation Using Category-Level Neural
Radiance Fields [35.89557494372891]
ニューラルラジアンス場に基づく視点推定法であるViewNeRFを導入する。
提案手法は,条件付きNeRFと視点予測器とシーンエンコーダを組み合わせた合成手法を用いて解析を行う。
本モデルでは,合成データセットと実データセットの競合結果を示す。
論文 参考訳(メタデータ) (2022-12-01T11:16:11Z) - SPARF: Neural Radiance Fields from Sparse and Noisy Poses [58.528358231885846]
SPARF(Sparse Pose Adjusting Radiance Field)を導入し,新規な視点合成の課題に対処する。
提案手法は、NeRFを共同学習し、カメラのポーズを洗練するために、多視点幾何学的制約を利用する。
論文 参考訳(メタデータ) (2022-11-21T18:57:47Z) - Robustifying the Multi-Scale Representation of Neural Radiance Fields [86.69338893753886]
実世界の画像の両問題を克服するために,頑健なマルチスケールニューラルラジアンス場表現手法を提案する。
提案手法は,NeRFにインスパイアされたアプローチを用いて,マルチスケール画像効果とカメラ位置推定問題に対処する。
例えば、日常的に取得したマルチビュー画像からオブジェクトの正確な神経表現を行うためには、カメラの正確な位置推定が不可欠であることを示す。
論文 参考訳(メタデータ) (2022-10-09T11:46:45Z) - BARF: Bundle-Adjusting Neural Radiance Fields [104.97810696435766]
不完全なカメラポーズからNeRFを訓練するためのバンドル調整ニューラルラジアンスフィールド(BARF)を提案します。
BARFは、ニューラルネットワークシーンの表現を効果的に最適化し、大きなカメラのポーズミスを同時に解決する。
これにより、未知のカメラポーズからの映像シーケンスのビュー合成とローカライズが可能になり、視覚ローカライズシステムのための新しい道を開くことができる。
論文 参考訳(メタデータ) (2021-04-13T17:59:51Z) - iNeRF: Inverting Neural Radiance Fields for Pose Estimation [68.91325516370013]
Neural RadianceField(NeRF)を「反転」してメッシュフリーポーズ推定を行うフレームワークiNeRFを紹介します。
NeRFはビュー合成のタスクに極めて有効であることが示されている。
論文 参考訳(メタデータ) (2020-12-10T18:36:40Z) - Neural Ray Surfaces for Self-Supervised Learning of Depth and Ego-motion [51.19260542887099]
カメラモデルの事前知識を必要とせずに、自己超越を用いて正確な深度とエゴモーション推定を学習できることが示される。
Grossberg と Nayar の幾何学モデルにインスパイアされた我々は、ピクセルワイド射影線を表す畳み込みネットワークである Neural Ray Surfaces (NRS) を導入する。
本研究では,多種多様なカメラシステムを用いて得られた生ビデオから,視覚計測の自己教師付き学習と深度推定にNRSを用いることを実証する。
論文 参考訳(メタデータ) (2020-08-15T02:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。