論文の概要: DITTO-NeRF: Diffusion-based Iterative Text To Omni-directional 3D Model
- arxiv url: http://arxiv.org/abs/2304.02827v1
- Date: Thu, 6 Apr 2023 02:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 15:33:09.992058
- Title: DITTO-NeRF: Diffusion-based Iterative Text To Omni-directional 3D Model
- Title(参考訳): DITTO-NeRF:拡散に基づく全方向3次元モデルへの反復テキスト
- Authors: Hoigi Seo, Hayeon Kim, Gwanghyun Kim, Se Young Chun
- Abstract要約: テキストプロンプトや単一画像から高品質な3D NeRFモデルを生成するための新しいパイプラインを提案する。
DitTO-NeRFは、前景から与えられたまたはテキスト生成された2D画像を用いて、制限付きインバウンダリ(IB)角度のための高品質な部分的な3Dオブジェクトを構築する。
我々は,DITTO-NeRFにおける3次元オブジェクト再構成手法を,スケール(低分解能),アングル(IB角),外界(OB),マスク(背景境界)の3次元オブジェクト再構成方式を提案する。
- 参考スコア(独自算出の注目度): 15.091263190886337
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The increasing demand for high-quality 3D content creation has motivated the
development of automated methods for creating 3D object models from a single
image and/or from a text prompt. However, the reconstructed 3D objects using
state-of-the-art image-to-3D methods still exhibit low correspondence to the
given image and low multi-view consistency. Recent state-of-the-art text-to-3D
methods are also limited, yielding 3D samples with low diversity per prompt
with long synthesis time. To address these challenges, we propose DITTO-NeRF, a
novel pipeline to generate a high-quality 3D NeRF model from a text prompt or a
single image. Our DITTO-NeRF consists of constructing high-quality partial 3D
object for limited in-boundary (IB) angles using the given or text-generated 2D
image from the frontal view and then iteratively reconstructing the remaining
3D NeRF using inpainting latent diffusion model. We propose progressive 3D
object reconstruction schemes in terms of scales (low to high resolution),
angles (IB angles initially to outer-boundary (OB) later), and masks (object to
background boundary) in our DITTO-NeRF so that high-quality information on IB
can be propagated into OB. Our DITTO-NeRF outperforms state-of-the-art methods
in terms of fidelity and diversity qualitatively and quantitatively with much
faster training times than prior arts on image/text-to-3D such as DreamFusion,
and NeuralLift-360.
- Abstract(参考訳): 高品質な3Dコンテンツ作成の需要が高まり、単一の画像やテキストプロンプトから3Dオブジェクトモデルを作成する自動化手法の開発が動機となっている。
しかし, 最先端画像から3次元画像への再構成では, 与えられた画像との対応性が低く, マルチビューの整合性が低い。
近年の最先端のテキスト・ツー・3D法も制限されており、短い合成時間で1プロンプトあたりの多様性の低い3Dサンプルが得られる。
これらの課題に対処するために,テキストプロンプトや単一画像から高品質な3D NeRFモデルを生成する新しいパイプラインであるDITTO-NeRFを提案する。
提案のディットナーフは,与えられたあるいはテキストで生成された2次元画像を用いて,限定的な境界(ib)角の高品質な部分的3dオブジェクトを構築し,その残りの3d nerfをインパイント潜在拡散モデルを用いて反復的に再構成する。
提案手法では, スケール(低分解能から高分解能), 角度(初期から外界(ob)まで), マスク(オブジェクトから背景境界まで)の3次元オブジェクト再構成方式を提案し, ibの高品質な情報をobに伝達する。
我々のDITTO-NeRFは、DreamFusionやNeuralLift-360のような画像/テキスト3Dの先行技術よりも、定性的かつ定量的なトレーニング時間で最先端の手法より優れています。
関連論文リスト
- 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [13.551691697814908]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - GO-NeRF: Generating Virtual Objects in Neural Radiance Fields [75.13534508391852]
GO-NeRFは、既存のNeRF内の高品質で調和した3Dオブジェクト生成にシーンコンテキストを利用することができる。
本手法では,生成した3次元オブジェクトをシームレスにシーンに合成する構成的レンダリング形式を用いる。
論文 参考訳(メタデータ) (2024-01-11T08:58:13Z) - One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View
Generation and 3D Diffusion [32.29687304798145]
One-2-3-45++は、1つの画像を1分で詳細な3Dテクスチャメッシュに変換する革新的な方法である。
提案手法は,2次元拡散モデルに埋め込まれた広範囲な知識を,貴重な3次元データから活用することを目的としている。
論文 参考訳(メタデータ) (2023-11-14T03:40:25Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - TextMesh: Generation of Realistic 3D Meshes From Text Prompts [56.2832907275291]
リアルな3Dメッシュを生成するための新しい手法を提案する。
この目的のために、NeRFをSDFバックボーンに拡張し、3Dメッシュ抽出を改善した。
論文 参考訳(メタデータ) (2023-04-24T20:29:41Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z) - 3D-aware Image Synthesis via Learning Structural and Textural
Representations [39.681030539374994]
生成モデルを作成することは、2D画像空間と3D物理世界を橋渡しするが、まだ難しい。
近年、GAN(Generative Adversarial Network)とNeRF(Neural Radiance Field)という3次元座標をピクセル値にマッピングする手法が試みられている。
本稿では,構造表現とテクスチャ表現を明示的に学習することで,高忠実度3次元画像合成のための新しいフレームワーク,VolumeGANを提案する。
論文 参考訳(メタデータ) (2021-12-20T18:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。