論文の概要: Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D
priors
- arxiv url: http://arxiv.org/abs/2312.04963v1
- Date: Thu, 7 Dec 2023 10:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 15:25:47.364394
- Title: Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D
priors
- Title(参考訳): 2次元および3次元先行を用いた双方向拡散によるテキストから3次元生成
- Authors: Lihe Ding, Shaocong Dong, Zhanpeng Huang, Zibin Wang, Yiyuan Zhang,
Kaixiong Gong, Dan Xu, Tianfan Xue
- Abstract要約: 双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。
我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
- 参考スコア(独自算出の注目度): 16.93758384693786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most 3D generation research focuses on up-projecting 2D foundation models
into the 3D space, either by minimizing 2D Score Distillation Sampling (SDS)
loss or fine-tuning on multi-view datasets. Without explicit 3D priors, these
methods often lead to geometric anomalies and multi-view inconsistency.
Recently, researchers have attempted to improve the genuineness of 3D objects
by directly training on 3D datasets, albeit at the cost of low-quality texture
generation due to the limited texture diversity in 3D datasets. To harness the
advantages of both approaches, we propose Bidirectional Diffusion(BiDiff), a
unified framework that incorporates both a 3D and a 2D diffusion process, to
preserve both 3D fidelity and 2D texture richness, respectively. Moreover, as a
simple combination may yield inconsistent generation results, we further bridge
them with novel bidirectional guidance. In addition, our method can be used as
an initialization of optimization-based models to further improve the quality
of 3D model and efficiency of optimization, reducing the generation process
from 3.4 hours to 20 minutes. Experimental results have shown that our model
achieves high-quality, diverse, and scalable 3D generation. Project website:
https://bidiff.github.io/.
- Abstract(参考訳): ほとんどの3d世代の研究は、2dスコア蒸留サンプリング(sds)損失の最小化やマルチビューデータセットの微調整によって、3d空間への2d基礎モデルの拡張に焦点を当てている。
明示的な3d事前化がなければ、これらの手法はしばしば幾何学的異常と多視点不整合をもたらす。
近年,3Dデータセットのテクスチャの多様性が限定されているため,低品質なテクスチャ生成のコストがかかるにもかかわらず,3Dデータセットを直接トレーニングすることで,3Dオブジェクトの真しさを向上しようと試みている。
両手法の利点を活かし、3次元と2次元の両方の拡散過程を組み込んだ統一フレームワークbidirectional diffusion(bidiff)を提案し、3次元の忠実性と2次元のテクスチャの豊かさをそれぞれ保存する。
さらに、単純な組み合わせで、一貫性のない生成結果が得られるため、新たな双方向誘導でそれらを橋渡しする。
さらに, 最適化モデルの初期化により, 3次元モデルの品質向上と最適化の効率化を実現し, 生成過程を3.4時間から20分に短縮することができる。
実験の結果,高品質,多様,スケーラブルな3d生成が可能となった。
プロジェクトwebサイト: https://bidiff.github.io/
関連論文リスト
- Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [32.105318004273]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はRetDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - MetaDreamer: Efficient Text-to-3D Creation With Disentangling Geometry
and Texture [1.5601951993287981]
リッチな2Dおよび3D事前知識を活用する2段階最適化アプローチであるMetaDreammerを紹介する。
第一段階では、3Dオブジェクトの多視点整合性と精度を確保するため、幾何学的表現の最適化に重点を置いている。
第2段階では、幾何学の微調整とテクスチャの最適化に集中し、より洗練された3Dオブジェクトを実現する。
論文 参考訳(メタデータ) (2023-11-16T11:35:10Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D
Generation [39.50894560861625]
3DFuseは、事前訓練された2D拡散モデルに3D認識を組み込む新しいフレームワークである。
本研究では,2次元拡散モデルを用いて,粗い3次元構造内の誤差や空間の分散を学習し,ロバストな生成を可能にするトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T14:24:31Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。