論文の概要: 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with
Text-guided Diffusion Models
- arxiv url: http://arxiv.org/abs/2211.14108v1
- Date: Fri, 25 Nov 2022 13:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:11:13.417072
- Title: 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with
Text-guided Diffusion Models
- Title(参考訳): 3DDesigner:テキスト誘導拡散モデルによる光リアルな3Dオブジェクト生成と編集を目指して
- Authors: Gang Li, Heliang Zheng, Chaoyue Wang, Chang Li, Changwen Zheng,
Dacheng Tao
- Abstract要約: テキスト誘導拡散モデルを用いてtextbf3D-consistent generation を実現する。
第2に、textbf3Dローカル編集について検討し、360$circdの操作結果を生成する2段階のソリューションを提案する。
第3に,本モデルを拡張して,単一画像の微調整による一対一のノベルビュー合成を行う。
- 参考スコア(独自算出の注目度): 74.97739558024908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided diffusion models have shown superior performance in image/video
generation and editing. While few explorations have been performed in 3D
scenarios. In this paper, we discuss three fundamental and interesting problems
on this topic. First, we equip text-guided diffusion models to achieve
\textbf{3D-consistent generation}. Specifically, we integrate a NeRF-like
neural field to generate low-resolution coarse results for a given camera view.
Such results can provide 3D priors as condition information for the following
diffusion process. During denoising diffusion, we further enhance the 3D
consistency by modeling cross-view correspondences with a novel two-stream
(corresponding to two different views) asynchronous diffusion process. Second,
we study \textbf{3D local editing} and propose a two-step solution that can
generate 360$^{\circ}$ manipulated results by editing an object from a single
view. Step 1, we propose to perform 2D local editing by blending the predicted
noises. Step 2, we conduct a noise-to-text inversion process that maps 2D
blended noises into the view-independent text embedding space. Once the
corresponding text embedding is obtained, 360$^{\circ}$ images can be
generated. Last but not least, we extend our model to perform \textbf{one-shot
novel view synthesis} by fine-tuning on a single image, firstly showing the
potential of leveraging text guidance for novel view synthesis. Extensive
experiments and various applications show the prowess of our 3DDesigner.
Project page is available at \url{https://3ddesigner-diffusion.github.io/}.
- Abstract(参考訳): テキスト誘導拡散モデルは画像/ビデオ生成と編集において優れた性能を示している。
3Dシナリオでの探索はほとんど行われていない。
本稿では,本トピックに関する3つの基本的,興味深い問題について論じる。
まず、テキスト誘導拡散モデルを用いて \textbf{3d- consistent generation} を実現する。
具体的には、NeRFのようなニューラルフィールドを統合して、所定のカメラビューに対して低解像度の粗い結果を生成する。
このような結果は、以下の拡散過程の条件情報として3D先行情報を提供できる。
2つの異なる視点に対応する新しい2ストリームの非同期拡散プロセスを用いて、クロスビュー対応をモデル化することにより、3次元の一貫性をさらに向上する。
次に,1つのビューからオブジェクトを編集することで,360$^{\circ}$操作結果を生成する2段階のソリューションを提案する。
ステップ1では,予測ノイズをブレンドして2次元局所編集を行う。
ステップ2では、2Dブレンドしたノイズをビュー非依存のテキスト埋め込み空間にマッピングする。
対応するテキスト埋め込みが得られたら、360$^{\circ}$イメージを生成することができる。
最後に、私たちはモデルを拡張して、1つのイメージを微調整することで \textbf{one-shot novel view synthesis} を実行し、まず、新しいビュー合成にテキストガイダンスを利用する可能性を示しています。
大規模な実験と様々な応用が、我々の3Dデザイナの長所を示しています。
プロジェクトページは \url{https://3ddesigner-diffusion.github.io/} で入手できる。
関連論文リスト
- 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - Blocks2World: Controlling Realistic Scenes with Editable Primitives [5.541644538483947]
我々は3Dシーンのレンダリングと編集のための新しい方法であるBlocks2Worldを提案する。
本手法は,コンベックス分解を用いて,各シーンの様々な物体から3次元並列入力を抽出することから始める。
次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-07-07T21:38:50Z) - DreamSparse: Escaping from Plato's Cave with 2D Frozen Diffusion Model
Given Sparse Views [20.685453627120832]
既存の手法では、品質の高い結果を生成するのに苦労したり、オブジェクトごとの最適化が必要な場合が少なくない。
DreamSparseは、オブジェクトレベルの画像とシーンレベルの画像の両方に対して高品質なノベルビューを合成することができる。
論文 参考訳(メタデータ) (2023-06-06T05:26:26Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。