論文の概要: Viewpoint Textual Inversion: Unleashing Novel View Synthesis with
Pretrained 2D Diffusion Models
- arxiv url: http://arxiv.org/abs/2309.07986v1
- Date: Thu, 14 Sep 2023 18:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 16:53:26.867453
- Title: Viewpoint Textual Inversion: Unleashing Novel View Synthesis with
Pretrained 2D Diffusion Models
- Title(参考訳): 視点テキストインバージョン:事前学習した2次元拡散モデルを用いた新しい視点合成
- Authors: James Burgess, Kuan-Chieh Wang, and Serena Yeung
- Abstract要約: 安定拡散のような2次元画像拡散モデルにおいて3次元知識が符号化されていることを示す。
提案手法であるViewNeTIは,凍結拡散モデルから生成した画像中の物体の3次元視点を制御する。
- 参考スコア(独自算出の注目度): 13.760540874218705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models understand spatial relationship between
objects, but do they represent the true 3D structure of the world from only 2D
supervision? We demonstrate that yes, 3D knowledge is encoded in 2D image
diffusion models like Stable Diffusion, and we show that this structure can be
exploited for 3D vision tasks. Our method, Viewpoint Neural Textual Inversion
(ViewNeTI), controls the 3D viewpoint of objects in generated images from
frozen diffusion models. We train a small neural mapper to take camera
viewpoint parameters and predict text encoder latents; the latents then
condition the diffusion generation process to produce images with the desired
camera viewpoint.
ViewNeTI naturally addresses Novel View Synthesis (NVS). By leveraging the
frozen diffusion model as a prior, we can solve NVS with very few input views;
we can even do single-view novel view synthesis. Our single-view NVS
predictions have good semantic details and photorealism compared to prior
methods. Our approach is well suited for modeling the uncertainty inherent in
sparse 3D vision problems because it can efficiently generate diverse samples.
Our view-control mechanism is general, and can even change the camera view in
images generated by user-defined prompts.
- Abstract(参考訳): テキストと画像の拡散モデルはオブジェクト間の空間的関係を理解するが、それは2次元の監督だけで世界の真の3次元構造を表現するのか?
3次元知識が安定拡散のような2次元画像拡散モデルにエンコードされていることを実証し,この構造を3次元視覚タスクに活用できることを示す。
提案手法であるviewnetiは,凍結拡散モデルを用いて生成画像中の物体の3次元的視点を制御する。
我々は、小さなニューラルマッパーを訓練して、カメラの視点パラメータを抽出し、テキストエンコーダの潜伏者を予測し、潜伏者は拡散生成過程を条件とし、所望のカメラの視点で画像を生成する。
ViewNeTIはノベルビュー合成(NVS)を自然に扱う。
凍結拡散モデルを先行として活用することにより,入力ビューの少ないNVSを解くことができ,単一ビューの新規ビュー合成も可能である。
単視点NVS予測は,従来の手法に比べてセマンティックディテールとフォトリアリズムが優れている。
本手法は,多様なサンプルを効率よく生成できるため,スパース3次元視覚問題に固有の不確かさをモデル化するのに適している。
我々のビューコントロール機構は一般的であり、ユーザ定義のプロンプトによって生成された画像のカメラビューも変更できる。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転における3D環境を理解するための自己教師型学習フレームワークである。
スパースでシングルフレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する。
RGB、奥行き、特徴画像を再構成するために、異なるレンダリングで自己教師される。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - DreamSparse: Escaping from Plato's Cave with 2D Frozen Diffusion Model
Given Sparse Views [20.685453627120832]
既存の手法では、品質の高い結果を生成するのに苦労したり、オブジェクトごとの最適化が必要な場合が少なくない。
DreamSparseは、オブジェクトレベルの画像とシーンレベルの画像の両方に対して高品質なノベルビューを合成することができる。
論文 参考訳(メタデータ) (2023-06-06T05:26:26Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z) - 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with
Text-guided Diffusion Models [71.25937799010407]
テキスト誘導拡散モデルを用いて3次元連続生成を実現する。
本研究では3次元局所編集について検討し,2段階の解法を提案する。
モデルを拡張してワンショットのノベルビュー合成を行う。
論文 参考訳(メタデータ) (2022-11-25T13:50:00Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Continuous Object Representation Networks: Novel View Synthesis without
Target View Supervision [26.885846254261626]
連続オブジェクト表現ネットワーク(Continuous Object Representation Networks、CORN)は、入力画像の幾何学と外観を3D一貫したシーン表現にマッピングする条件付きアーキテクチャである。
CORNは、新しいビューの合成やシングルビューの3D再構成、そして直接監督を使用する最先端のアプローチに匹敵するパフォーマンスといった挑戦的なタスクでうまく機能する。
論文 参考訳(メタデータ) (2020-07-30T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。