論文の概要: JointDreamer: Ensuring Geometry Consistency and Text Congruence in Text-to-3D Generation via Joint Score Distillation
- arxiv url: http://arxiv.org/abs/2407.12291v1
- Date: Wed, 17 Jul 2024 03:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:38:37.203349
- Title: JointDreamer: Ensuring Geometry Consistency and Text Congruence in Text-to-3D Generation via Joint Score Distillation
- Title(参考訳): JointDreamer:ジョイントスコア蒸留によるテキスト間3次元生成における幾何整合性とテキスト整合性の確保
- Authors: Chenhan Jiang, Yihan Zeng, Tianyang Hu, Songcun Xu, Wei Zhang, Hang Xu, Dit-Yan Yeung,
- Abstract要約: textbfJoint textbfScore textbfDistillation (JSD) を提案する。
JSDは、スコア蒸留サンプリングにおける3次元不整合問題を著しく軽減する。
筆者らのフレームワークであるJointDreamerは,テキストから3D生成の新しいベンチマークを構築している。
- 参考スコア(独自算出の注目度): 38.32887919831611
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Score Distillation Sampling (SDS) by well-trained 2D diffusion models has shown great promise in text-to-3D generation. However, this paradigm distills view-agnostic 2D image distributions into the rendering distribution of 3D representation for each view independently, overlooking the coherence across views and yielding 3D inconsistency in generations. In this work, we propose \textbf{J}oint \textbf{S}core \textbf{D}istillation (JSD), a new paradigm that ensures coherent 3D generations. Specifically, we model the joint image distribution, which introduces an energy function to capture the coherence among denoised images from the diffusion model. We then derive the joint score distillation on multiple rendered views of the 3D representation, as opposed to a single view in SDS. In addition, we instantiate three universal view-aware models as energy functions, demonstrating compatibility with JSD. Empirically, JSD significantly mitigates the 3D inconsistency problem in SDS, while maintaining text congruence. Moreover, we introduce the Geometry Fading scheme and Classifier-Free Guidance (CFG) Switching strategy to enhance generative details. Our framework, JointDreamer, establishes a new benchmark in text-to-3D generation, achieving outstanding results with an 88.5\% CLIP R-Precision and 27.7\% CLIP Score. These metrics demonstrate exceptional text congruence, as well as remarkable geometric consistency and texture fidelity.
- Abstract(参考訳): 十分に訓練された2次元拡散モデルによるSDS(Score Distillation Sampling)は、テキストから3次元生成において大きな可能性を示している。
しかし、このパラダイムは、ビュー間のコヒーレンスを見越し、世代ごとに3Dの不整合をもたらす、各ビューに対する3D表現のレンダリング分布に、ビューに依存しない2D画像分布を蒸留する。
本研究では,コヒーレントな3D世代を保証する新しいパラダイムである,textbf{J}oint \textbf{S}core \textbf{D}istillation (JSD)を提案する。
具体的には,拡散モデルからデノナイズド画像間のコヒーレンスを捕捉するエネルギー関数を導入するジョイントイメージ分布をモデル化する。
次に,SDSの単一ビューとは対照的に,複数の3次元表現のレンダリングビュー上でのジョイントスコア蒸留を導出する。
さらに、3つのユニバーサルビューアウェアモデルをエネルギー関数としてインスタンス化し、JSDとの互換性を示す。
経験的に、JSDはテキストの一貫性を維持しながら、SDSにおける3Dの不整合問題を著しく軽減する。
さらに,ジェネリックディテールを高めるため,幾何ファディングスキームと分類自由誘導(CFG)スイッチング戦略を導入する。
われわれのフレームワークであるJointDreamerはテキストから3D生成の新しいベンチマークを確立し、88.5\%のCLIP R-Precisionと27.7\%のCLIPスコアで優れた結果を得た。
これらの指標は、並外れたテキストの一貫性とテクスチャの忠実さを示すとともに、顕著な幾何学的整合性とテクスチャの忠実さを示す。
関連論文リスト
- VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing [22.39760469467524]
本研究では,2次元拡散モデルと3次元拡散モデルの間のモーダルギャップに対処する分散テクスチャ合成を提案する。
我々は、競合する領域との詳細な関係を改善するために、塗装モジュールを提示する。
論文 参考訳(メタデータ) (2024-07-05T12:11:33Z) - Geometry-Aware Score Distillation via 3D Consistent Noising and Gradient Consistency Modeling [31.945761751215134]
我々は,3次元一貫したノイズ発生,幾何に基づく勾配のゆらぎ,新しい勾配のゆらぎの損失を導入する。
我々は,テキスト・ツー・3次元生成タスクにおける幾何学的不整合を最小限のコストで解決し,既存のスコア蒸留モデルとの整合性を実現した。
論文 参考訳(メタデータ) (2024-06-24T14:58:17Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - Efficient Geometry-aware 3D Generative Adversarial Networks [50.68436093869381]
既存の3D GANは計算集約的であるか、3D一貫性のない近似を行う。
本研究では、3D GANの計算効率と画質をこれらの近似に頼らずに改善する。
本稿では,高解像度のマルチビュー一貫性画像だけでなく,高品質な3次元形状をリアルタイムに合成する,表現型ハイブリッド・明示型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-15T08:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。