論文の概要: Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images
- arxiv url: http://arxiv.org/abs/2311.04521v1
- Date: Wed, 8 Nov 2023 08:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 16:40:38.092617
- Title: Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images
- Title(参考訳): 非ポーズ画像からのニューラルラジアンス場に対するロバストなマルチスケール表現の学習
- Authors: Nishant Jain, Suryansh Kumar, Luc Van Gool
- Abstract要約: コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
- 参考スコア(独自算出の注目度): 65.41966114373373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce an improved solution to the neural image-based rendering problem
in computer vision. Given a set of images taken from a freely moving camera at
train time, the proposed approach could synthesize a realistic image of the
scene from a novel viewpoint at test time. The key ideas presented in this
paper are (i) Recovering accurate camera parameters via a robust pipeline from
unposed day-to-day images is equally crucial in neural novel view synthesis
problem; (ii) It is rather more practical to model object's content at
different resolutions since dramatic camera motion is highly likely in
day-to-day unposed images. To incorporate the key ideas, we leverage the
fundamentals of scene rigidity, multi-scale neural scene representation, and
single-image depth prediction. Concretely, the proposed approach makes the
camera parameters as learnable in a neural fields-based modeling framework. By
assuming per view depth prediction is given up to scale, we constrain the
relative pose between successive frames. From the relative poses, absolute
camera pose estimation is modeled via a graph-neural network-based multiple
motion averaging within the multi-scale neural-fields network, leading to a
single loss function. Optimizing the introduced loss function provides camera
intrinsic, extrinsic, and image rendering from unposed images. We demonstrate,
with examples, that for a unified framework to accurately model multiscale
neural scene representation from day-to-day acquired unposed multi-view images,
it is equally essential to have precise camera-pose estimates within the scene
representation framework. Without considering robustness measures in the camera
pose estimation pipeline, modeling for multi-scale aliasing artifacts can be
counterproductive. We present extensive experiments on several benchmark
datasets to demonstrate the suitability of our approach.
- Abstract(参考訳): 本稿では,コンピュータビジョンにおけるニューラルイメージベースレンダリング問題に対する改良解を提案する。
列車内で自由移動カメラから撮影された画像のセットを考えると、提案手法はテスト時の新しい視点からシーンの現実的なイメージを合成することができる。
この論文で提示される主要なアイデアは
(i)不用意な日々の画像からロバストなパイプラインを介して正確なカメラパラメータを復元することは、ニューラルノベルのビュー合成問題において等しく重要である。
(II)劇的なカメラの動きは、日々の未提示画像において非常に起こりやすいため、異なる解像度でオブジェクトのコンテンツをモデル化することはより現実的である。
キーとなるアイデアを取り入れるために、シーンの剛性、マルチスケールのニューラルシーン表現、シングルイメージの深さ予測の基礎を利用する。
具体的には,ニューラルフィールドに基づくモデリングフレームワークにおいて,カメラパラメータを学習可能とする手法を提案する。
ビュー毎の深度予測がスケールに与えられていると仮定することで、フレーム間の相対的なポーズを制約する。
相対的なポーズから、絶対的なカメラポーズ推定は、マルチスケールニューラルネットワーク内のグラフニューラルネットワークに基づくマルチモーション平均化によってモデル化され、単一損失関数が導かれる。
導入された損失関数の最適化は、カメラ内在性、外部性、および未設定の画像からのレンダリングを提供する。
実例では,日常的に取得した未取得の多視点画像から,複数スケールのニューラルシーン表現を正確にモデル化するための統一フレームワークが,シーン表現フレームワーク内で正確なカメラ配置推定を行うことが重要であることを実証する。
カメラポーズ推定パイプラインにおけるロバスト性測定を考慮せずに、マルチスケールエイリアスアーティファクトのモデリングは非生産的である。
提案手法の適合性を示すため,いくつかのベンチマークデータセットについて広範な実験を行った。
関連論文リスト
- RANRAC: Robust Neural Scene Representations via Random Ray Consensus [12.161889666145127]
RANRAC(RANdom RAy Consensus)は、一貫性のないデータの影響を排除するための効率的な手法である。
我々はRANSACパラダイムのファジィ適応を定式化し、大規模モデルへの適用を可能にした。
その結果, 新規な視点合成のための最先端のロバストな手法と比較して, 顕著な改善が見られた。
論文 参考訳(メタデータ) (2023-12-15T13:33:09Z) - Inverting the Imaging Process by Learning an Implicit Camera Model [73.81635386829846]
本稿では,ディープニューラルネットワークとしてのカメラの物理画像処理を表現した,新しい暗黙カメラモデルを提案する。
本稿では,この暗黙カメラモデルが2つの逆撮像タスクに与える影響を実演する。
論文 参考訳(メタデータ) (2023-04-25T11:55:03Z) - MELON: NeRF with Unposed Images in SO(3) [35.093700416540436]
ニューラルネットワークは、非提示画像から最先端の精度でニューラルラジアンス場を再構築でき、対向的アプローチの10倍のビューを必要とすることを示す。
ニューラルネットを用いてポーズ推定を正則化することにより,提案手法は非ポーズ画像から最先端の精度でニューラルレイディアンス場を再構築し,敵のアプローチの10倍のビューを要求できることを示した。
論文 参考訳(メタデータ) (2023-03-14T17:33:39Z) - Robustifying the Multi-Scale Representation of Neural Radiance Fields [86.69338893753886]
実世界の画像の両問題を克服するために,頑健なマルチスケールニューラルラジアンス場表現手法を提案する。
提案手法は,NeRFにインスパイアされたアプローチを用いて,マルチスケール画像効果とカメラ位置推定問題に対処する。
例えば、日常的に取得したマルチビュー画像からオブジェクトの正確な神経表現を行うためには、カメラの正確な位置推定が不可欠であることを示す。
論文 参考訳(メタデータ) (2022-10-09T11:46:45Z) - im2nerf: Image to Neural Radiance Field in the Wild [47.18702901448768]
im2nerfは、野生の1つの入力イメージが与えられた連続的な神経オブジェクト表現を予測する学習フレームワークである。
Im2nerfは、野生の単視未表示画像から新しいビューを合成するための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-08T23:28:56Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。