論文の概要: im2nerf: Image to Neural Radiance Field in the Wild
- arxiv url: http://arxiv.org/abs/2209.04061v1
- Date: Thu, 8 Sep 2022 23:28:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 12:47:11.334421
- Title: im2nerf: Image to Neural Radiance Field in the Wild
- Title(参考訳): im2nerf: 野生の神経放射場へのイメージ
- Authors: Lu Mi, Abhijit Kundu, David Ross, Frank Dellaert, Noah Snavely,
Alireza Fathi
- Abstract要約: im2nerfは、野生の1つの入力イメージが与えられた連続的な神経オブジェクト表現を予測する学習フレームワークである。
Im2nerfは、野生の単視未表示画像から新しいビューを合成するための最先端性能を実現する。
- 参考スコア(独自算出の注目度): 47.18702901448768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose im2nerf, a learning framework that predicts a continuous neural
object representation given a single input image in the wild, supervised by
only segmentation output from off-the-shelf recognition methods. The standard
approach to constructing neural radiance fields takes advantage of multi-view
consistency and requires many calibrated views of a scene, a requirement that
cannot be satisfied when learning on large-scale image data in the wild. We
take a step towards addressing this shortcoming by introducing a model that
encodes the input image into a disentangled object representation that contains
a code for object shape, a code for object appearance, and an estimated camera
pose from which the object image is captured. Our model conditions a NeRF on
the predicted object representation and uses volume rendering to generate
images from novel views. We train the model end-to-end on a large collection of
input images. As the model is only provided with single-view images, the
problem is highly under-constrained. Therefore, in addition to using a
reconstruction loss on the synthesized input view, we use an auxiliary
adversarial loss on the novel rendered views. Furthermore, we leverage object
symmetry and cycle camera pose consistency. We conduct extensive quantitative
and qualitative experiments on the ShapeNet dataset as well as qualitative
experiments on Open Images dataset. We show that in all cases, im2nerf achieves
the state-of-the-art performance for novel view synthesis from a single-view
unposed image in the wild.
- Abstract(参考訳): そこで本研究では,単一の入力画像から連続的なニューラルネットワーク表現を予測する学習フレームワークim2nerfを提案する。
ニューラルラディアンスフィールドを構築するための標準的なアプローチは、マルチビューの一貫性を生かし、シーンの多くのキャリブレーションされたビューを必要とする。
入力画像をオブジェクト形状の符号、オブジェクト外観の符号、およびオブジェクト画像がキャプチャされる推定カメラポーズを含む異角形オブジェクト表現にエンコードするモデルを導入することで、この欠点に対処するための一歩を踏み出す。
提案モデルでは,予測対象表現上のNeRFを条件とし,ボリュームレンダリングを用いて新しいビューから画像を生成する。
モデルのエンドツーエンドを大量の入力イメージでトレーニングします。
モデルはシングルビューの画像しか提供されないため、問題は過小評価されている。
したがって、合成された入力ビューに対する再構成損失に加えて、新規な描画ビューに対する補助的対角損失を用いる。
さらに、オブジェクト対称性とサイクルカメラのポーズ一貫性を活用する。
我々は,シェープネットデータセットの量的,質的実験と,オープンイメージデータセットの質的実験を行う。
いずれの場合も、in2nerfは、野生の単視点未表示画像から新しいビュー合成を行うための最先端のパフォーマンスを実現する。
関連論文リスト
- NViST: In the Wild New View Synthesis from a Single Image with
Transformers [9.878414824892783]
単一画像からの新規ビュー合成のためのトランスフォーマーモデルであるNViSTを提案する。
複雑な背景を持つWildイメージの大規模なデータセットに基づいてトレーニングされる。
MVImgNetの未確認オブジェクトやカテゴリ,さらにはカジュアル電話のキャプチャ結果も示す。
論文 参考訳(メタデータ) (2023-12-13T23:41:17Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Zero-1-to-3: Zero-shot One Image to 3D Object [30.455300183998247]
単一のRGB画像のみを与えられたオブジェクトのカメラ視点を変更するためのフレームワークであるZero-1-to-3を紹介する。
条件拡散モデルは、合成データセットを用いて、相対カメラ視点の制御を学習する。
提案手法は,インターネット規模の事前学習を活用して,最先端の1次元3次元再構成と新しいビュー合成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-03-20T17:59:50Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - ShaRF: Shape-conditioned Radiance Fields from a Single View [54.39347002226309]
本稿では,単一の画像のみのオブジェクトの神経シーン表現を推定する手法を提案する。
この手法の核心は,対象物の幾何学的足場の推定である。
合成画像と実画像の両方において,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2021-02-17T16:40:28Z) - Unsupervised Novel View Synthesis from a Single Image [47.37120753568042]
単一の画像からの新しいビュー合成は、オブジェクトの単一入力画像から新しいビューを生成することを目的としている。
本研究の目的は、新しいビュー合成のための条件付き生成モデルの訓練を、完全に教師なしの方法で行えるようにすることで、この仮定を緩和することである。
論文 参考訳(メタデータ) (2021-02-05T16:56:04Z) - Sequential View Synthesis with Transformer [13.200139959163574]
学習した表現に基づいて、ターゲットビューを含む画像シーケンスを予測するシーケンシャルレンダリングデコーダを導入する。
我々は、様々な挑戦的なデータセットでモデルを評価し、モデルが一貫性のある予測を与えるだけでなく、微調整のための再トレーニングも必要としないことを示した。
論文 参考訳(メタデータ) (2020-04-09T14:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。