論文の概要: im2nerf: Image to Neural Radiance Field in the Wild
- arxiv url: http://arxiv.org/abs/2209.04061v1
- Date: Thu, 8 Sep 2022 23:28:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 12:47:11.334421
- Title: im2nerf: Image to Neural Radiance Field in the Wild
- Title(参考訳): im2nerf: 野生の神経放射場へのイメージ
- Authors: Lu Mi, Abhijit Kundu, David Ross, Frank Dellaert, Noah Snavely,
Alireza Fathi
- Abstract要約: im2nerfは、野生の1つの入力イメージが与えられた連続的な神経オブジェクト表現を予測する学習フレームワークである。
Im2nerfは、野生の単視未表示画像から新しいビューを合成するための最先端性能を実現する。
- 参考スコア(独自算出の注目度): 47.18702901448768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose im2nerf, a learning framework that predicts a continuous neural
object representation given a single input image in the wild, supervised by
only segmentation output from off-the-shelf recognition methods. The standard
approach to constructing neural radiance fields takes advantage of multi-view
consistency and requires many calibrated views of a scene, a requirement that
cannot be satisfied when learning on large-scale image data in the wild. We
take a step towards addressing this shortcoming by introducing a model that
encodes the input image into a disentangled object representation that contains
a code for object shape, a code for object appearance, and an estimated camera
pose from which the object image is captured. Our model conditions a NeRF on
the predicted object representation and uses volume rendering to generate
images from novel views. We train the model end-to-end on a large collection of
input images. As the model is only provided with single-view images, the
problem is highly under-constrained. Therefore, in addition to using a
reconstruction loss on the synthesized input view, we use an auxiliary
adversarial loss on the novel rendered views. Furthermore, we leverage object
symmetry and cycle camera pose consistency. We conduct extensive quantitative
and qualitative experiments on the ShapeNet dataset as well as qualitative
experiments on Open Images dataset. We show that in all cases, im2nerf achieves
the state-of-the-art performance for novel view synthesis from a single-view
unposed image in the wild.
- Abstract(参考訳): そこで本研究では,単一の入力画像から連続的なニューラルネットワーク表現を予測する学習フレームワークim2nerfを提案する。
ニューラルラディアンスフィールドを構築するための標準的なアプローチは、マルチビューの一貫性を生かし、シーンの多くのキャリブレーションされたビューを必要とする。
入力画像をオブジェクト形状の符号、オブジェクト外観の符号、およびオブジェクト画像がキャプチャされる推定カメラポーズを含む異角形オブジェクト表現にエンコードするモデルを導入することで、この欠点に対処するための一歩を踏み出す。
提案モデルでは,予測対象表現上のNeRFを条件とし,ボリュームレンダリングを用いて新しいビューから画像を生成する。
モデルのエンドツーエンドを大量の入力イメージでトレーニングします。
モデルはシングルビューの画像しか提供されないため、問題は過小評価されている。
したがって、合成された入力ビューに対する再構成損失に加えて、新規な描画ビューに対する補助的対角損失を用いる。
さらに、オブジェクト対称性とサイクルカメラのポーズ一貫性を活用する。
我々は,シェープネットデータセットの量的,質的実験と,オープンイメージデータセットの質的実験を行う。
いずれの場合も、in2nerfは、野生の単視点未表示画像から新しいビュー合成を行うための最先端のパフォーマンスを実現する。
関連論文リスト
- MetaCap: Meta-learning Priors from Multi-View Imagery for Sparse-view Human Performance Capture and Rendering [91.76893697171117]
そこで本研究では, 高精度かつ高品質な幾何復元と新規なビュー合成手法を提案する。
私たちのキーとなるアイデアは、低解像度のマルチビュービデオからのみ、放射界の重みをメタラーニングすることです。
新しいデータセットWildDynaCap(ワイルドダイナキャップ)は、密集したカメラドームと細いカメラリグの両方に収まる被写体を含んでいる。
論文 参考訳(メタデータ) (2024-03-27T17:59:54Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Zero-1-to-3: Zero-shot One Image to 3D Object [30.455300183998247]
単一のRGB画像のみを与えられたオブジェクトのカメラ視点を変更するためのフレームワークであるZero-1-to-3を紹介する。
条件拡散モデルは、合成データセットを用いて、相対カメラ視点の制御を学習する。
提案手法は,インターネット規模の事前学習を活用して,最先端の1次元3次元再構成と新しいビュー合成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-03-20T17:59:50Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Unsupervised Novel View Synthesis from a Single Image [47.37120753568042]
単一の画像からの新しいビュー合成は、オブジェクトの単一入力画像から新しいビューを生成することを目的としている。
本研究の目的は、新しいビュー合成のための条件付き生成モデルの訓練を、完全に教師なしの方法で行えるようにすることで、この仮定を緩和することである。
論文 参考訳(メタデータ) (2021-02-05T16:56:04Z) - Sequential View Synthesis with Transformer [13.200139959163574]
学習した表現に基づいて、ターゲットビューを含む画像シーケンスを予測するシーケンシャルレンダリングデコーダを導入する。
我々は、様々な挑戦的なデータセットでモデルを評価し、モデルが一貫性のある予測を与えるだけでなく、微調整のための再トレーニングも必要としないことを示した。
論文 参考訳(メタデータ) (2020-04-09T14:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。