論文の概要: DreamDissector: Learning Disentangled Text-to-3D Generation from 2D Diffusion Priors
- arxiv url: http://arxiv.org/abs/2407.16260v1
- Date: Tue, 23 Jul 2024 07:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 18:06:10.941946
- Title: DreamDissector: Learning Disentangled Text-to-3D Generation from 2D Diffusion Priors
- Title(参考訳): DreamDissector: 2次元拡散先行データからテキストから3次元の遠絡を学習する
- Authors: Zizheng Yan, Jiapeng Zhou, Fanpeng Meng, Yushuang Wu, Lingteng Qiu, Zisheng Ye, Shuguang Cui, Guanying Chen, Xiaoguang Han,
- Abstract要約: 本研究では,複数の独立したオブジェクトを対話で生成できるテキストから3DのDreamDissectorを提案する。
DreamDissectorはマルチオブジェクトのテキストから3DのNeRFを入力として受け入れ、独立したテクスチャメッシュを生成する。
- 参考スコア(独自算出の注目度): 44.30208916019448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D generation has recently seen significant progress. To enhance its practicality in real-world applications, it is crucial to generate multiple independent objects with interactions, similar to layer-compositing in 2D image editing. However, existing text-to-3D methods struggle with this task, as they are designed to generate either non-independent objects or independent objects lacking spatially plausible interactions. Addressing this, we propose DreamDissector, a text-to-3D method capable of generating multiple independent objects with interactions. DreamDissector accepts a multi-object text-to-3D NeRF as input and produces independent textured meshes. To achieve this, we introduce the Neural Category Field (NeCF) for disentangling the input NeRF. Additionally, we present the Category Score Distillation Sampling (CSDS), facilitated by a Deep Concept Mining (DCM) module, to tackle the concept gap issue in diffusion models. By leveraging NeCF and CSDS, we can effectively derive sub-NeRFs from the original scene. Further refinement enhances geometry and texture. Our experimental results validate the effectiveness of DreamDissector, providing users with novel means to control 3D synthesis at the object level and potentially opening avenues for various creative applications in the future.
- Abstract(参考訳): テキストから3D生成は、最近大きな進歩を遂げた。
実世界のアプリケーションにおける実用性を高めるため、2次元画像編集におけるレイヤ合成と同様、対話を伴う複数の独立したオブジェクトを生成することが重要である。
しかし、既存のテキスト・ツー・3D手法は、非独立なオブジェクトか、空間的に妥当な相互作用を欠く独立したオブジェクトを生成するように設計されているため、この課題に苦慮する。
そこで我々はDreamDissectorを提案する。DreamDissectorは複数の独立したオブジェクトを対話で生成できるテキストから3Dの手法である。
DreamDissectorはマルチオブジェクトのテキストから3DのNeRFを入力として受け入れ、独立したテクスチャメッシュを生成する。
これを実現するために、入力されたNeRFをアンタングリングするためのNeCF(Neural Category Field)を導入する。
さらに,拡散モデルにおける概念ギャップ問題に対処するため,深部概念マイニング(DCM)モジュールによって促進されるカテゴリスコア蒸留サンプリング(CSDS)を提案する。
NeCFとCSDSを利用することで、元のシーンからNeRFを効果的に導き出すことができる。
さらなる改良により、幾何学とテクスチャが強化される。
実験の結果,DreamDissectorの有効性を検証し,オブジェクトレベルで3D合成を制御する新しい手段をユーザに提供するとともに,将来様々なクリエイティブアプリケーションへの道を開く可能性が示唆された。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - ${M^2D}$NeRF: Multi-Modal Decomposition NeRF with 3D Feature Fields [33.168225243348786]
テキストベースと視覚パッチベースの編集が可能な単一モデルであるM2D$NeRF(M2D$NeRF)を提案する。
具体的には,教師の特徴を事前学習した視覚モデルと言語モデルから3次元意味的特徴量へ統合するために,マルチモーダルな特徴蒸留を用いる。
実世界の様々な場面における実験は,従来のNeRF法と比較して3次元シーン分解作業において優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-08T12:25:21Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - HyperDreamer: Hyper-Realistic 3D Content Generation and Editing from a
Single Image [94.11473240505534]
一つの画像から3Dコンテンツを作成するためのツールであるHyperDreamerを紹介します。
ユーザーは、結果の3Dコンテンツをフル範囲から閲覧、レンダリング、編集できないため、ポストジェネレーションの使用には十分である。
高分解能なテクスチャとユーザフレンドリーな編集が可能な領域認識素材のモデリングにおけるHyperDreamerの有効性を実証する。
論文 参考訳(メタデータ) (2023-12-07T18:58:09Z) - X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation [61.48050470095969]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文 参考訳(メタデータ) (2023-11-30T07:23:00Z) - Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。
近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。
予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。
我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文 参考訳(メタデータ) (2023-09-15T16:34:51Z) - NAP: Neural 3D Articulation Prior [31.875925637190328]
本研究では,3次元合成対象モデルを合成する最初の3次元深部生成モデルであるNeural 3D Articulation Prior (NAP)を提案する。
そこで我々はまず,新しい調音木/グラフパラメタライゼーションを設計し,この表現に対して拡散減衰確率モデルを適用した。
分布が互いに影響を及ぼすような幾何構造と運動構造の両方を捉えるために,逆拡散過程を学習するためのグラフアテンション認知ネットワークを設計する。
論文 参考訳(メタデータ) (2023-05-25T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。