論文の概要: ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image
- arxiv url: http://arxiv.org/abs/2310.17994v1
- Date: Fri, 27 Oct 2023 09:06:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 14:21:34.629281
- Title: ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image
- Title(参考訳): ZeroNVS: 1枚の実画像からのゼロショット360度ビュー合成
- Authors: Kyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong-Xing Yu,
Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei-Fei, Deqing Sun, Jiajun Wu
- Abstract要約: そこで,本研究では3次元拡散モデルであるZeroNVSを導入し,ワンイメージの新たなビュー合成手法を提案する。
具体的には、オブジェクト中心、屋内、屋外のシーンをキャプチャするデータソースの混合に基づいて、生成をトレーニングする。
我々のモデルは、DTUデータセット上のLPIPSをゼロショット設定で設定し、DTUで特別に訓練された方法よりも優れた結果を得る。
- 参考スコア(独自算出の注目度): 43.124055270735866
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce a 3D-aware diffusion model, ZeroNVS, for single-image novel view
synthesis for in-the-wild scenes. While existing methods are designed for
single objects with masked backgrounds, we propose new techniques to address
challenges introduced by in-the-wild multi-object scenes with complex
backgrounds. Specifically, we train a generative prior on a mixture of data
sources that capture object-centric, indoor, and outdoor scenes. To address
issues from data mixture such as depth-scale ambiguity, we propose a novel
camera conditioning parameterization and normalization scheme. Further, we
observe that Score Distillation Sampling (SDS) tends to truncate the
distribution of complex backgrounds during distillation of 360-degree scenes,
and propose "SDS anchoring" to improve the diversity of synthesized novel
views. Our model sets a new state-of-the-art result in LPIPS on the DTU dataset
in the zero-shot setting, even outperforming methods specifically trained on
DTU. We further adapt the challenging Mip-NeRF 360 dataset as a new benchmark
for single-image novel view synthesis, and demonstrate strong performance in
this setting. Our code and data are at http://kylesargent.github.io/zeronvs/
- Abstract(参考訳): そこで,本研究では3次元拡散モデルであるZeroNVSを導入し,ワンイメージの新たなビュー合成手法を提案する。
既存の手法は暗黙の背景を持つ単一オブジェクトに対して設計されているが,複雑な背景を持つマルチオブジェクトシーンがもたらす課題に対処する新しい手法を提案する。
具体的には、オブジェクト中心、屋内、屋外のシーンをキャプチャするデータソースの混合に基づいて、生成をトレーニングする。
深度スケールのあいまいさなどのデータ混合問題に対処するため,新しいカメラ条件付パラメータ化と正規化方式を提案する。
さらに,SDS (Score Distillation Sampling) は,360度シーンの蒸留時に複雑な背景の分布を小さくする傾向にあり,合成された新規なビューの多様性を向上させるために「SDSアンカー」を提案する。
我々のモデルは、DTUデータセット上のLPIPSをゼロショット設定で設定し、DTUで特別に訓練された方法よりも優れた結果を得る。
我々はさらに,挑戦的なmip-nerf 360データセットを,単一画像の新規画像合成のための新しいベンチマークとして適応させ,この設定において強力な性能を示す。
私たちのコードとデータはhttp://kylesargent.github.io/zeronvs/です。
関連論文リスト
- MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z) - Light Field Diffusion for Single-View Novel View Synthesis [32.59286750410843]
NVS(Single-view novel view synthesis)は、コンピュータビジョンにおいて重要であるが困難である。
NVSの最近の進歩は、高忠実度画像を生成するのに優れた能力として、Denoising Diffusion Probabilistic Models (DDPMs)を活用している。
光電界拡散(LFD)は,従来のカメラポーズ行列への依存を超越した,条件拡散に基づく新しいアプローチである。
論文 参考訳(メタデータ) (2023-09-20T03:27:06Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Zero-1-to-3: Zero-shot One Image to 3D Object [30.455300183998247]
単一のRGB画像のみを与えられたオブジェクトのカメラ視点を変更するためのフレームワークであるZero-1-to-3を紹介する。
条件拡散モデルは、合成データセットを用いて、相対カメラ視点の制御を学習する。
提案手法は,インターネット規模の事前学習を活用して,最先端の1次元3次元再構成と新しいビュー合成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-03-20T17:59:50Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - InfoNeRF: Ray Entropy Minimization for Few-Shot Neural Volume Rendering [55.70938412352287]
ニューラルな暗黙表現に基づく数ショットの新規ビュー合成のための情報理論正規化手法を提案する。
提案手法は,不十分な視点で発生する潜在的な復元の不整合を最小化する。
複数の標準ベンチマークにおいて,既存のニューラルビュー合成手法と比較して一貫した性能向上を実現している。
論文 参考訳(メタデータ) (2021-12-31T11:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。