論文の概要: Novel View Synthesis with Diffusion Models
- arxiv url: http://arxiv.org/abs/2210.04628v1
- Date: Thu, 6 Oct 2022 16:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:19:37.591191
- Title: Novel View Synthesis with Diffusion Models
- Title(参考訳): 拡散モデルを用いた新しい視点合成
- Authors: Daniel Watson, William Chan, Ricardo Martin-Brualla, Jonathan Ho,
Andrea Tagliasacchi, Mohammad Norouzi
- Abstract要約: 本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
- 参考スコア(独自算出の注目度): 56.55571338854636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present 3DiM, a diffusion model for 3D novel view synthesis, which is able
to translate a single input view into consistent and sharp completions across
many views. The core component of 3DiM is a pose-conditional image-to-image
diffusion model, which takes a source view and its pose as inputs, and
generates a novel view for a target pose as output. 3DiM can generate multiple
views that are 3D consistent using a novel technique called stochastic
conditioning. The output views are generated autoregressively, and during the
generation of each novel view, one selects a random conditioning view from the
set of available views at each denoising step. We demonstrate that stochastic
conditioning significantly improves the 3D consistency of a naive sampler for
an image-to-image diffusion model, which involves conditioning on a single
fixed view. We compare 3DiM to prior work on the SRN ShapeNet dataset,
demonstrating that 3DiM's generated completions from a single view achieve much
higher fidelity, while being approximately 3D consistent. We also introduce a
new evaluation methodology, 3D consistency scoring, to measure the 3D
consistency of a generated object by training a neural field on the model's
output views. 3DiM is geometry free, does not rely on hyper-networks or
test-time optimization for novel view synthesis, and allows a single model to
easily scale to a large number of scenes.
- Abstract(参考訳): 本稿では,3次元新規ビュー合成のための拡散モデルである3DiMについて述べる。
3DiMのコアコンポーネントは、ソースビューとそのポーズを入力として、ターゲットポーズの新たなビューを出力として生成する、ポーズ条件のイメージ・ツー・イメージ拡散モデルである。
3DiMは、確率条件付けと呼ばれる新しい技術を用いて、複数の3D一貫性のあるビューを生成することができる。
出力ビューは自己回帰的に生成され、各新規ビューの生成中に、各装飾ステップで利用可能なビューのセットからランダムな条件付けビューを選択する。
確率的条件付けにより,画像から画像への拡散モデルに対するナイーブ・サンプラーの3次元一貫性が大幅に向上することを示す。
3DiMとSRN ShapeNetデータセットの先行研究を比較し、単一のビューから生成された3DiMの完成度が約3D一貫性を保ちながら、はるかに高い忠実性を実現することを示した。
また,ニューラルフィールドをモデルの出力ビューにトレーニングすることにより,生成されたオブジェクトの3次元一貫性を測定するための新しい評価手法である3次元一貫性スコア法を提案する。
3DiMは幾何学的自由であり、新しいビュー合成のためにハイパーネットやテストタイムの最適化を頼らず、単一のモデルを多数のシーンに容易にスケールすることができる。
関連論文リスト
- 3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance [61.06034736050515]
単一入力画像からカメラ制御された視点を生成する方法を提案する。
本手法は,広範囲なトレーニングや3Dおよびマルチビューデータなしで,複雑で多様なシーンを処理できることに優れる。
論文 参考訳(メタデータ) (2024-08-12T13:53:40Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z) - 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with
Text-guided Diffusion Models [71.25937799010407]
テキスト誘導拡散モデルを用いて3次元連続生成を実現する。
本研究では3次元局所編集について検討し,2段階の解法を提案する。
モデルを拡張してワンショットのノベルビュー合成を行う。
論文 参考訳(メタデータ) (2022-11-25T13:50:00Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - AUTO3D: Novel view synthesis through unsupervisely learned variational
viewpoint and global 3D representation [27.163052958878776]
本稿では,ポーズ・インスペクションを伴わない単一の2次元画像から学習に基づく新規ビュー・シンセサイザーを目標とする。
本研究では,学習済みの相対的目的/回転と暗黙的グローバルな3次元表現を両立させるために,エンドツーエンドの訓練可能な条件変分フレームワークを構築した。
本システムでは,3次元再構成を明示的に行うことなく,暗黙的に3次元理解を行うことができる。
論文 参考訳(メタデータ) (2020-07-13T18:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。