論文の概要: X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap
Between Text-to-2D and Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2312.00085v2
- Date: Mon, 25 Dec 2023 05:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 21:33:24.276262
- Title: X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap
Between Text-to-2D and Text-to-3D Generation
- Title(参考訳): X-Dreamer:テキスト対2Dとテキスト対3Dの領域ギャップを埋めて高品質な3Dコンテンツを作成する
- Authors: Yiwei Ma, Yijun Fan, Jiayi Ji, Haowei Wang, Xiaoshuai Sun, Guannan
Jiang, Annan Shu, Rongrong Ji
- Abstract要約: X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
- 参考スコア(独自算出の注目度): 64.12848271290119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent times, automatic text-to-3D content creation has made significant
progress, driven by the development of pretrained 2D diffusion models. Existing
text-to-3D methods typically optimize the 3D representation to ensure that the
rendered image aligns well with the given text, as evaluated by the pretrained
2D diffusion model. Nevertheless, a substantial domain gap exists between 2D
images and 3D assets, primarily attributed to variations in camera-related
attributes and the exclusive presence of foreground objects. Consequently,
employing 2D diffusion models directly for optimizing 3D representations may
lead to suboptimal outcomes. To address this issue, we present X-Dreamer, a
novel approach for high-quality text-to-3D content creation that effectively
bridges the gap between text-to-2D and text-to-3D synthesis. The key components
of X-Dreamer are two innovative designs: Camera-Guided Low-Rank Adaptation
(CG-LoRA) and Attention-Mask Alignment (AMA) Loss. CG-LoRA dynamically
incorporates camera information into the pretrained diffusion models by
employing camera-dependent generation for trainable parameters. This
integration enhances the alignment between the generated 3D assets and the
camera's perspective. AMA loss guides the attention map of the pretrained
diffusion model using the binary mask of the 3D object, prioritizing the
creation of the foreground object. This module ensures that the model focuses
on generating accurate and detailed foreground objects. Extensive evaluations
demonstrate the effectiveness of our proposed method compared to existing
text-to-3D approaches. Our project webpage:
https://xmu-xiaoma666.github.io/Projects/X-Dreamer/ .
- Abstract(参考訳): 近年,事前学習された2次元拡散モデルの開発により,テキストから3次元コンテンツの自動生成が大きな進歩を遂げている。
既存のテキスト・トゥ・3D法は、事前訓練された2D拡散モデルにより評価されるように、3D表現を最適化し、レンダリングされた画像が与えられたテキストと適切に一致することを保証する。
それでも、2D画像と3Dアセットの間にはかなりの領域ギャップがあり、主にカメラ関連属性のバリエーションと前景オブジェクトの排他的存在に起因する。
したがって、3次元表現を最適化するために直接2次元拡散モデルを用いることは、最適以下の結果をもたらす可能性がある。
本稿では,テキストから3dへの合成とテキストから3dへの合成のギャップを効果的に橋渡しする,高品質なテキストから3dへのコンテンツ作成のための新しいアプローチであるx-dreamerを提案する。
X-Dreamerの主なコンポーネントは、カメラ誘導低ランク適応(CG-LoRA)とアテンションマスクアライメント(AMA)ロスの2つの革新的な設計である。
CG-LoRAは、トレーニング可能なパラメータにカメラ依存生成を用いることで、事前訓練された拡散モデルにカメラ情報を動的に組み込む。
この統合により、生成された3Dアセットとカメラの視点とのアライメントが強化される。
ama損失は、3dオブジェクトのバイナリマスクを使用して事前訓練された拡散モデルの注意マップを誘導し、前景オブジェクトの作成を優先する。
このモジュールは、モデルが正確で詳細な前景オブジェクトの生成に集中することを保証する。
提案手法の有効性を,既存のテキスト・ツー・3D手法と比較して評価した。
プロジェクトWebページ: https://xmu-xiaoma666.github.io/Projects/X-Dreamer/。
関連論文リスト
- Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [86.31822685078642]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [32.105318004273]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はRetDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via
Orthogonal-view Diffusion Prior [45.43710135562116]
与えられたテキストプロンプトに対して4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
3Dコンテンツはこの拡散モデルで作成され、3D一貫性を高め、強力な構造化されたセマンティック先行を提供する。
生成した3Dコンテンツの品質を大幅に向上させる,プログレッシブな3D合成戦略を採用している。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D
Generation [39.50894560861625]
3DFuseは、事前訓練された2D拡散モデルに3D認識を組み込む新しいフレームワークである。
本研究では,2次元拡散モデルを用いて,粗い3次元構造内の誤差や空間の分散を学習し,ロバストな生成を可能にするトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T14:24:31Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。