論文の概要: DITTO-NeRF: Diffusion-based Iterative Text To Omni-directional 3D Model
- arxiv url: http://arxiv.org/abs/2304.02827v1
- Date: Thu, 6 Apr 2023 02:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 15:33:09.992058
- Title: DITTO-NeRF: Diffusion-based Iterative Text To Omni-directional 3D Model
- Title(参考訳): DITTO-NeRF:拡散に基づく全方向3次元モデルへの反復テキスト
- Authors: Hoigi Seo, Hayeon Kim, Gwanghyun Kim, Se Young Chun
- Abstract要約: テキストプロンプトや単一画像から高品質な3D NeRFモデルを生成するための新しいパイプラインを提案する。
DitTO-NeRFは、前景から与えられたまたはテキスト生成された2D画像を用いて、制限付きインバウンダリ(IB)角度のための高品質な部分的な3Dオブジェクトを構築する。
我々は,DITTO-NeRFにおける3次元オブジェクト再構成手法を,スケール(低分解能),アングル(IB角),外界(OB),マスク(背景境界)の3次元オブジェクト再構成方式を提案する。
- 参考スコア(独自算出の注目度): 15.091263190886337
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The increasing demand for high-quality 3D content creation has motivated the
development of automated methods for creating 3D object models from a single
image and/or from a text prompt. However, the reconstructed 3D objects using
state-of-the-art image-to-3D methods still exhibit low correspondence to the
given image and low multi-view consistency. Recent state-of-the-art text-to-3D
methods are also limited, yielding 3D samples with low diversity per prompt
with long synthesis time. To address these challenges, we propose DITTO-NeRF, a
novel pipeline to generate a high-quality 3D NeRF model from a text prompt or a
single image. Our DITTO-NeRF consists of constructing high-quality partial 3D
object for limited in-boundary (IB) angles using the given or text-generated 2D
image from the frontal view and then iteratively reconstructing the remaining
3D NeRF using inpainting latent diffusion model. We propose progressive 3D
object reconstruction schemes in terms of scales (low to high resolution),
angles (IB angles initially to outer-boundary (OB) later), and masks (object to
background boundary) in our DITTO-NeRF so that high-quality information on IB
can be propagated into OB. Our DITTO-NeRF outperforms state-of-the-art methods
in terms of fidelity and diversity qualitatively and quantitatively with much
faster training times than prior arts on image/text-to-3D such as DreamFusion,
and NeuralLift-360.
- Abstract(参考訳): 高品質な3Dコンテンツ作成の需要が高まり、単一の画像やテキストプロンプトから3Dオブジェクトモデルを作成する自動化手法の開発が動機となっている。
しかし, 最先端画像から3次元画像への再構成では, 与えられた画像との対応性が低く, マルチビューの整合性が低い。
近年の最先端のテキスト・ツー・3D法も制限されており、短い合成時間で1プロンプトあたりの多様性の低い3Dサンプルが得られる。
これらの課題に対処するために,テキストプロンプトや単一画像から高品質な3D NeRFモデルを生成する新しいパイプラインであるDITTO-NeRFを提案する。
提案のディットナーフは,与えられたあるいはテキストで生成された2次元画像を用いて,限定的な境界(ib)角の高品質な部分的3dオブジェクトを構築し,その残りの3d nerfをインパイント潜在拡散モデルを用いて反復的に再構成する。
提案手法では, スケール(低分解能から高分解能), 角度(初期から外界(ob)まで), マスク(オブジェクトから背景境界まで)の3次元オブジェクト再構成方式を提案し, ibの高品質な情報をobに伝達する。
我々のDITTO-NeRFは、DreamFusionやNeuralLift-360のような画像/テキスト3Dの先行技術よりも、定性的かつ定量的なトレーニング時間で最先端の手法より優れています。
関連論文リスト
- LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - GO-NeRF: Generating Virtual Objects in Neural Radiance Fields [75.13534508391852]
GO-NeRFは、既存のNeRF内の高品質で調和した3Dオブジェクト生成にシーンコンテキストを利用することができる。
本手法では,生成した3次元オブジェクトをシームレスにシーンに合成する構成的レンダリング形式を用いる。
論文 参考訳(メタデータ) (2024-01-11T08:58:13Z) - PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion [18.82883336156591]
本稿では,テキストプロンプトから高品質な3D形状を数分で生成する,事前学習されたテキスト・画像拡散モデルの能力をフル活用するフレームワークPI3Dを提案する。
PI3Dはテキストからわずか3分で1つの3D形状を生成し、その品質は既存の3D生成モデルよりも大きなマージンで優れていることが検証される。
論文 参考訳(メタデータ) (2023-12-14T16:04:34Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - TextMesh: Generation of Realistic 3D Meshes From Text Prompts [56.2832907275291]
リアルな3Dメッシュを生成するための新しい手法を提案する。
この目的のために、NeRFをSDFバックボーンに拡張し、3Dメッシュ抽出を改善した。
論文 参考訳(メタデータ) (2023-04-24T20:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。