論文の概要: 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with
Text-guided Diffusion Models
- arxiv url: http://arxiv.org/abs/2211.14108v3
- Date: Thu, 12 Oct 2023 08:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 15:27:00.033633
- Title: 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with
Text-guided Diffusion Models
- Title(参考訳): 3DDesigner:テキスト誘導拡散モデルによる光リアルな3Dオブジェクト生成と編集を目指して
- Authors: Gang Li, Heliang Zheng, Chaoyue Wang, Chang Li, Changwen Zheng,
Dacheng Tao
- Abstract要約: テキスト誘導拡散モデルを用いて3次元連続生成を実現する。
本研究では3次元局所編集について検討し,2段階の解法を提案する。
モデルを拡張してワンショットのノベルビュー合成を行う。
- 参考スコア(独自算出の注目度): 71.25937799010407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided diffusion models have shown superior performance in image/video
generation and editing. While few explorations have been performed in 3D
scenarios. In this paper, we discuss three fundamental and interesting problems
on this topic. First, we equip text-guided diffusion models to achieve
3D-consistent generation. Specifically, we integrate a NeRF-like neural field
to generate low-resolution coarse results for a given camera view. Such results
can provide 3D priors as condition information for the following diffusion
process. During denoising diffusion, we further enhance the 3D consistency by
modeling cross-view correspondences with a novel two-stream (corresponding to
two different views) asynchronous diffusion process. Second, we study 3D local
editing and propose a two-step solution that can generate 360-degree
manipulated results by editing an object from a single view. Step 1, we propose
to perform 2D local editing by blending the predicted noises. Step 2, we
conduct a noise-to-text inversion process that maps 2D blended noises into the
view-independent text embedding space. Once the corresponding text embedding is
obtained, 360-degree images can be generated. Last but not least, we extend our
model to perform one-shot novel view synthesis by fine-tuning on a single
image, firstly showing the potential of leveraging text guidance for novel view
synthesis. Extensive experiments and various applications show the prowess of
our 3DDesigner. The project page is available at
https://3ddesigner-diffusion.github.io/.
- Abstract(参考訳): テキスト誘導拡散モデルは画像/ビデオ生成と編集において優れた性能を示している。
3Dシナリオでの探索はほとんど行われていない。
本稿では,本トピックに関する3つの基本的,興味深い問題について論じる。
まず,テキスト誘導拡散モデルを用いて3次元連続生成を実現する。
具体的には、NeRFのようなニューラルフィールドを統合して、所定のカメラビューに対して低解像度の粗い結果を生成する。
このような結果は、以下の拡散過程の条件情報として3D先行情報を提供できる。
2つの異なる視点に対応する新しい2ストリームの非同期拡散プロセスを用いて、クロスビュー対応をモデル化することにより、3次元の一貫性をさらに向上する。
第2に,3次元ローカル編集について検討し,一つのビューからオブジェクトを編集することで,360度操作された結果を生成する2段階のソリューションを提案する。
ステップ1では,予測ノイズをブレンドして2次元局所編集を行う。
ステップ2では、2Dブレンドしたノイズをビュー非依存のテキスト埋め込み空間にマッピングする。
対応するテキスト埋め込みが得られれば、360度画像を生成することができる。
最後に,本モデルを拡張して,単一画像の微調整によるワンショット新規ビュー合成を行い,まず,新規ビュー合成にテキストガイダンスを活用する可能性を示す。
大規模な実験と様々な応用が、我々の3Dデザイナの長所を示しています。
プロジェクトページはhttps://3ddesigner-diffusion.github.io/で入手できる。
関連論文リスト
- 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Viewpoint Textual Inversion: Unleashing Novel View Synthesis with
Pretrained 2D Diffusion Models [13.760540874218705]
安定拡散のような2次元画像拡散モデルにおいて3次元知識が符号化されていることを示す。
提案手法であるViewNeTIは,凍結拡散モデルから生成した画像中の物体の3次元視点を制御する。
論文 参考訳(メタデータ) (2023-09-14T18:52:16Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - Blocks2World: Controlling Realistic Scenes with Editable Primitives [5.541644538483947]
我々は3Dシーンのレンダリングと編集のための新しい方法であるBlocks2Worldを提案する。
本手法は,コンベックス分解を用いて,各シーンの様々な物体から3次元並列入力を抽出することから始める。
次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-07-07T21:38:50Z) - DreamSparse: Escaping from Plato's Cave with 2D Frozen Diffusion Model
Given Sparse Views [20.685453627120832]
既存の手法では、品質の高い結果を生成するのに苦労したり、オブジェクトごとの最適化が必要な場合が少なくない。
DreamSparseは、オブジェクトレベルの画像とシーンレベルの画像の両方に対して高品質なノベルビューを合成することができる。
論文 参考訳(メタデータ) (2023-06-06T05:26:26Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。