Fugu-MT 論文翻訳(概要): 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models

論文の概要: 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models

arxiv url: http://arxiv.org/abs/2211.14108v3
Date: Thu, 12 Oct 2023 08:05:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-15 15:27:00.033633
Title: 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models
Title（参考訳）: 3DDesigner:テキスト誘導拡散モデルによる光リアルな3Dオブジェクト生成と編集を目指して
Authors: Gang Li, Heliang Zheng, Chaoyue Wang, Chang Li, Changwen Zheng, Dacheng Tao
Abstract要約: テキスト誘導拡散モデルを用いて3次元連続生成を実現する。本研究では3次元局所編集について検討し,2段階の解法を提案する。モデルを拡張してワンショットのノベルビュー合成を行う。
参考スコア（独自算出の注目度）: 71.25937799010407
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-guided diffusion models have shown superior performance in image/video generation and editing. While few explorations have been performed in 3D scenarios. In this paper, we discuss three fundamental and interesting problems on this topic. First, we equip text-guided diffusion models to achieve 3D-consistent generation. Specifically, we integrate a NeRF-like neural field to generate low-resolution coarse results for a given camera view. Such results can provide 3D priors as condition information for the following diffusion process. During denoising diffusion, we further enhance the 3D consistency by modeling cross-view correspondences with a novel two-stream (corresponding to two different views) asynchronous diffusion process. Second, we study 3D local editing and propose a two-step solution that can generate 360-degree manipulated results by editing an object from a single view. Step 1, we propose to perform 2D local editing by blending the predicted noises. Step 2, we conduct a noise-to-text inversion process that maps 2D blended noises into the view-independent text embedding space. Once the corresponding text embedding is obtained, 360-degree images can be generated. Last but not least, we extend our model to perform one-shot novel view synthesis by fine-tuning on a single image, firstly showing the potential of leveraging text guidance for novel view synthesis. Extensive experiments and various applications show the prowess of our 3DDesigner. The project page is available at https://3ddesigner-diffusion.github.io/.
Abstract（参考訳）: テキスト誘導拡散モデルは画像/ビデオ生成と編集において優れた性能を示している。 3Dシナリオでの探索はほとんど行われていない。本稿では,本トピックに関する3つの基本的,興味深い問題について論じる。まず,テキスト誘導拡散モデルを用いて3次元連続生成を実現する。具体的には、NeRFのようなニューラルフィールドを統合して、所定のカメラビューに対して低解像度の粗い結果を生成する。このような結果は、以下の拡散過程の条件情報として3D先行情報を提供できる。 2つの異なる視点に対応する新しい2ストリームの非同期拡散プロセスを用いて、クロスビュー対応をモデル化することにより、3次元の一貫性をさらに向上する。第2に,3次元ローカル編集について検討し,一つのビューからオブジェクトを編集することで,360度操作された結果を生成する2段階のソリューションを提案する。ステップ1では,予測ノイズをブレンドして2次元局所編集を行う。ステップ2では、2Dブレンドしたノイズをビュー非依存のテキスト埋め込み空間にマッピングする。対応するテキスト埋め込みが得られれば、360度画像を生成することができる。最後に,本モデルを拡張して,単一画像の微調整によるワンショット新規ビュー合成を行い,まず,新規ビュー合成にテキストガイダンスを活用する可能性を示す。大規模な実験と様々な応用が、我々の3Dデザイナの長所を示しています。プロジェクトページはhttps://3ddesigner-diffusion.github.io/で入手できる。

関連論文リスト

ScenDi: 3D-to-2D Scene Diffusion Cascades for Urban Generation [53.049890350639366]
本研究では,3次元拡散モデルと2次元拡散モデルを統合した都市景観生成手法であるScenDiを提案する。粗い3Dシーンを2Dビデオ拡散のガイダンスとして活用することにより、ScenDiは入力条件に基づいて所望のシーンを生成し、正確なカメラ軌道に順応する。
論文参考訳（メタデータ） (2026-01-21T17:53:21Z)
Text-to-3D Generation by 2D Editing [17.17448279533487]
事前訓練された2D拡散モデルから3D表現を蒸留することは、ゲーム、フィルム、インテリアデザインの3Dクリエイティブアプリケーションに不可欠である。現在のSDS法は拡散モデルからの非効率な情報蒸留によって妨げられ、光現実的な3Dコンテンツの作成を妨げている。本稿では,事前学習した拡散モデルを用いて,複数ステップで多粒度情報を抽出する3次元編集(GE3D)を提案する。
論文参考訳（メタデータ） (2024-12-08T12:53:05Z)
3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。 3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文参考訳（メタデータ） (2024-07-14T07:03:50Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-05T19:00:45Z)
Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview Correspondence-Enhanced Diffusion Models [83.97844535389073]
3Dコンテンツ編集の普及を妨げている大きな障害は、その時間集約的な処理である。共振器の正規化を拡散モデルに組み込むことで,3次元編集のプロセスを大幅に高速化できることを示す。多くのシナリオにおいて,提案手法はベースライン法と比較して10$times$の高速化を実現し,2分で3Dシーンの編集を完了させる。
論文参考訳（メタデータ） (2023-12-13T23:27:17Z)
EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文参考訳（メタデータ） (2023-08-25T07:39:26Z)
Blocks2World: Controlling Realistic Scenes with Editable Primitives [5.541644538483947]
我々は3Dシーンのレンダリングと編集のための新しい方法であるBlocks2Worldを提案する。本手法は,コンベックス分解を用いて,各シーンの様々な物体から3次元並列入力を抽出することから始める。次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。
論文参考訳（メタデータ） (2023-07-07T21:38:50Z)
DreamSparse: Escaping from Plato's Cave with 2D Frozen Diffusion Model Given Sparse Views [20.685453627120832]
既存の手法では、品質の高い結果を生成するのに苦労したり、オブジェクトごとの最適化が必要な場合が少なくない。 DreamSparseは、オブジェクトレベルの画像とシーンレベルの画像の両方に対して高品質なノベルビューを合成することができる。
論文参考訳（メタデータ） (2023-06-06T05:26:26Z)
Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文参考訳（メタデータ） (2023-04-05T17:15:47Z)
RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。 FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文参考訳（メタデータ） (2022-11-17T20:17:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。