論文の概要: VistaDream: Sampling multiview consistent images for single-view scene reconstruction
- arxiv url: http://arxiv.org/abs/2410.16892v1
- Date: Tue, 22 Oct 2024 10:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:48.338394
- Title: VistaDream: Sampling multiview consistent images for single-view scene reconstruction
- Title(参考訳): VistaDream: シングルビューシーン再構築のためのマルチビュー一貫性のあるイメージのサンプリング
- Authors: Haiping Wang, Yuan Liu, Ziwei Liu, Wenping Wang, Zhen Dong, Bisheng Yang,
- Abstract要約: VistaDreamは、単一のビューイメージから3Dシーンを再構築するフレームワークである。
近年の拡散モデルでは、単一ビューの入力画像から高品質のノベルビュー画像を生成することができる。
- 参考スコア(独自算出の注目度): 63.991582576387856
- License:
- Abstract: In this paper, we propose VistaDream a novel framework to reconstruct a 3D scene from a single-view image. Recent diffusion models enable generating high-quality novel-view images from a single-view input image. Most existing methods only concentrate on building the consistency between the input image and the generated images while losing the consistency between the generated images. VistaDream addresses this problem by a two-stage pipeline. In the first stage, VistaDream begins with building a global coarse 3D scaffold by zooming out a little step with inpainted boundaries and an estimated depth map. Then, on this global scaffold, we use iterative diffusion-based RGB-D inpainting to generate novel-view images to inpaint the holes of the scaffold. In the second stage, we further enhance the consistency between the generated novel-view images by a novel training-free Multiview Consistency Sampling (MCS) that introduces multi-view consistency constraints in the reverse sampling process of diffusion models. Experimental results demonstrate that without training or fine-tuning existing diffusion models, VistaDream achieves consistent and high-quality novel view synthesis using just single-view images and outperforms baseline methods by a large margin. The code, videos, and interactive demos are available at https://vistadream-project-page.github.io/.
- Abstract(参考訳): 本稿では,シングルビュー画像から3Dシーンを再構成する新しいフレームワークであるVistaDreamを提案する。
近年の拡散モデルでは、単一ビューの入力画像から高品質のノベルビュー画像を生成することができる。
既存のほとんどの手法は、入力画像と生成された画像間の一貫性を保ちながら、生成された画像間の一貫性を構築することに集中している。
VistaDreamは2段階のパイプラインでこの問題に対処する。
第一段階ではVistaDreamは、塗られた境界と推定深度マップで小さなステップをズームアウトすることで、グローバルな粗い3D足場を構築することから始める。
そして、このグローバルな足場上で、反復拡散に基づくRGB-Dインペイントを用いて、新しいビュー画像を生成して足場の穴を塗る。
第2段階では,拡散モデルの逆サンプリングプロセスにおいて,多視点整合性制約を導入する新しいトレーニング不要なマルチビュー整合サンプリング(MCS)により,生成した新規ビュー画像間の整合性をさらに向上する。
実験結果から,VistaDreamは,既存の拡散モデルの訓練や微調整なしに,単一ビュー画像のみを用いて一貫した高品質な新規ビュー合成を実現し,ベースライン法を大きなマージンで上回ることを示した。
コード、ビデオ、インタラクティブなデモはhttps://vistadream-project-page.github.io/.com/で公開されている。
関連論文リスト
- PlacidDreamer: Advancing Harmony in Text-to-3D Generation [20.022078051436846]
PlacidDreamerは、マルチビュー生成とテキスト条件生成を調和させるテキストから3Dフレームワークである。
バランスの取れた飽和を達成するために、新しいスコア蒸留アルゴリズムを採用している。
論文 参考訳(メタデータ) (2024-07-19T02:00:04Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - DreamComposer: Controllable 3D Object Generation via Multi-View Conditions [45.4321454586475]
最近の作品では、ワン・イン・ザ・ワイルド画像から高品質なノベルビューを生成することができる。
複数の視点からの情報がないため、これらは制御可能な新しい視点を生み出すのに困難に直面する。
我々はDreamComposerについて述べる。DreamComposerはフレキシブルでスケーラブルなフレームワークで、マルチビュー条件を注入することで既存のビュー認識拡散モデルを強化することができる。
論文 参考訳(メタデータ) (2023-12-06T16:55:53Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - SyncDreamer: Generating Multiview-consistent Images from a Single-view Image [59.75474518708409]
SyncDreamerと呼ばれる新しい拡散モデルが単一ビュー画像から複数ビュー一貫性のある画像を生成する。
実験の結果、SyncDreamerはさまざまなビューに対して高い一貫性を持つ画像を生成することがわかった。
論文 参考訳(メタデータ) (2023-09-07T02:28:04Z) - DreamSparse: Escaping from Plato's Cave with 2D Frozen Diffusion Model
Given Sparse Views [20.685453627120832]
既存の手法では、品質の高い結果を生成するのに苦労したり、オブジェクトごとの最適化が必要な場合が少なくない。
DreamSparseは、オブジェクトレベルの画像とシーンレベルの画像の両方に対して高品質なノベルビューを合成することができる。
論文 参考訳(メタデータ) (2023-06-06T05:26:26Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。