論文の概要: ART-DECO: Arbitrary Text Guidance for 3D Detailizer Construction
- arxiv url: http://arxiv.org/abs/2505.20431v2
- Date: Fri, 30 May 2025 23:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.006023
- Title: ART-DECO: Arbitrary Text Guidance for 3D Detailizer Construction
- Title(参考訳): ART-DECO:3次元Detailizer構築のための任意テキストガイダンス
- Authors: Qimin Chen, Yuezhi Yang, Yifang Wang, Vladimir G. Kim, Siddhartha Chaudhuri, Hao Zhang, Zhiqin Chen,
- Abstract要約: 粗い3D形状プロキシを高品質なアセットに即時に変換できるニューラルネットワークである3Dディファレンサを導入する。
我々のモデルはテキストプロンプトを用いて訓練され、形状クラスを定義し、生成した詳細の外観ときめ細かいスタイルを特徴付ける。
我々の精細化器は単一形状に最適化されておらず、生成モデルを蒸留した結果であり、再学習せずに再利用でき、任意の形状を生成することができる。
- 参考スコア(独自算出の注目度): 31.513768848094227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a 3D detailizer, a neural model which can instantaneously (in <1s) transform a coarse 3D shape proxy into a high-quality asset with detailed geometry and texture as guided by an input text prompt. Our model is trained using the text prompt, which defines the shape class and characterizes the appearance and fine-grained style of the generated details. The coarse 3D proxy, which can be easily varied and adjusted (e.g., via user editing), provides structure control over the final shape. Importantly, our detailizer is not optimized for a single shape; it is the result of distilling a generative model, so that it can be reused, without retraining, to generate any number of shapes, with varied structures, whose local details all share a consistent style and appearance. Our detailizer training utilizes a pretrained multi-view image diffusion model, with text conditioning, to distill the foundational knowledge therein into our detailizer via Score Distillation Sampling (SDS). To improve SDS and enable our detailizer architecture to learn generalizable features over complex structures, we train our model in two training stages to generate shapes with increasing structural complexity. Through extensive experiments, we show that our method generates shapes of superior quality and details compared to existing text-to-3D models under varied structure control. Our detailizer can refine a coarse shape in less than a second, making it possible to interactively author and adjust 3D shapes. Furthermore, the user-imposed structure control can lead to creative, and hence out-of-distribution, 3D asset generations that are beyond the current capabilities of leading text-to-3D generative models. We demonstrate an interactive 3D modeling workflow our method enables, and its strong generalizability over styles, structures, and object categories.
- Abstract(参考訳): 本稿では,粗い3次元形状プロキシを,入力テキストプロンプトで導かれるような詳細な形状とテクスチャを備えた高品質な資産に即時(<1s)変換可能なニューラルネットワークである3Dディファレンサを紹介する。
我々のモデルはテキストプロンプトを用いて訓練され、形状クラスを定義し、生成した詳細の外観ときめ細かいスタイルを特徴付ける。
変更や調整が容易な粗い3Dプロキシ(例えば、ユーザ編集)は、最終形状に関する構造制御を提供する。
生成モデルを蒸留した結果で、再訓練せずに再利用でき、任意の形状を生成でき、局所的な細部はすべて一貫したスタイルと外観を共有している。
我々は,テキスト条件付き事前学習した多視点画像拡散モデルを用いて,その基礎知識をスコア蒸留サンプリング (SDS) により抽出する。
SDSを改良し、複雑な構造上の一般化可能な特徴を学習できるように、我々は2つの訓練段階においてモデルを訓練し、構造的な複雑さを増す形で形状を生成する。
広範にわたる実験により,本手法は,構造制御の異なる既存のテキスト・ツー・3Dモデルと比較して,優れた品質・ディテールの形状を生成することを示す。
我々の精細化器は粗い形状を1秒以内で洗練することができ、3次元形状をインタラクティブに作成・調整することができる。
さらに、ユーザによって付与された構造制御は、主要なテキスト・ツー・3D生成モデルの現在の能力を超えた、創造的かつアウト・オブ・ディストリビューションな3Dアセット世代につながる可能性がある。
本稿では,本手法が実現したインタラクティブな3Dモデリングワークフローと,そのスタイル,構造,オブジェクトカテゴリに対する強力な一般化可能性を示す。
関連論文リスト
- DECOLLAGE: 3D Detailization by Controllable, Localized, and Learned Geometry Enhancement [38.719572669042925]
エンドユーザーが機械学習を用いて3次元形状を洗練・詳細化できる3Dモデリング手法を提案する。
詳細をローカライズする能力は、新しいインタラクティブな創造性と応用を可能にする。
論文 参考訳(メタデータ) (2024-09-10T00:51:49Z) - ShaDDR: Interactive Example-Based Geometry and Texture Generation via 3D
Shape Detailization and Differentiable Rendering [24.622120688131616]
ShaDDRは、高分解能なテクスチャ化された3D形状を生成するサンプルベースのディープ生成ニューラルネットワークである。
本手法は,マルチレゾリューションボクセルアップサンプリングによる幾何学の精密化と,ボクセル表面のテクスチャの生成を学習する。
生成された形状は、入力された粗いボクセルモデルの全体構造を保存する。
論文 参考訳(メタデータ) (2023-06-08T02:35:30Z) - DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation [105.97545053660619]
テキスト誘導型3次元形状生成手法DreamStoneを提案する。
画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
論文 参考訳(メタデータ) (2023-03-24T03:56:23Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation [89.47132156950194]
本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。
提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。
私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
論文 参考訳(メタデータ) (2022-12-08T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。