論文の概要: ControlDreamer: Blending Geometry and Style in Text-to-3D
- arxiv url: http://arxiv.org/abs/2312.01129v3
- Date: Fri, 23 Aug 2024 01:05:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 20:08:57.630922
- Title: ControlDreamer: Blending Geometry and Style in Text-to-3D
- Title(参考訳): ControlDreamer: テキストから3Dへの曲げ幾何学とスタイル
- Authors: Yeongtak Oh, Jooyoung Choi, Yongsung Kim, Minjun Park, Chaehun Shin, Sungroh Yoon,
- Abstract要約: 我々は、慎重にキュレートされたテキストコーパスからデータセットに基づいて訓練された、新しい深度対応多視点拡散モデルであるMulti-view ControlNetを紹介する。
マルチビューコントロールネットは、2段階のパイプラインであるControlDreamerに統合され、テキストガイドによるスタイリングされた3Dモデルの生成を可能にします。
- 参考スコア(独自算出の注目度): 34.92628800597151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in text-to-3D generation have significantly contributed to the automation and democratization of 3D content creation. Building upon these developments, we aim to address the limitations of current methods in blending geometries and styles in text-to-3D generation. We introduce multi-view ControlNet, a novel depth-aware multi-view diffusion model trained on generated datasets from a carefully curated text corpus. Our multi-view ControlNet is then integrated into our two-stage pipeline, ControlDreamer, enabling text-guided generation of stylized 3D models. Additionally, we present a comprehensive benchmark for 3D style editing, encompassing a broad range of subjects, including objects, animals, and characters, to further facilitate research on diverse 3D generation. Our comparative analysis reveals that this new pipeline outperforms existing text-to-3D methods as evidenced by human evaluations and CLIP score metrics. Project page: https://controldreamer.github.io
- Abstract(参考訳): 近年のテキスト・ツー・3D生成の進歩は、3Dコンテンツ作成の自動化と民主化に大きく貢献している。
これらの発展を基盤として,テキストから3D生成におけるジオメトリとスタイルのブレンドにおける現在の手法の限界に対処することを目的とする。
テキストコーパスから生成したデータセットに基づいて学習した,深度を考慮した新しい多視点拡散モデルであるMulti-view ControlNetを導入する。
マルチビューコントロールネットは、2段階のパイプラインであるControlDreamerに統合され、テキストガイドによるスタイリングされた3Dモデルの生成を可能にします。
さらに,オブジェクト,動物,キャラクタなど幅広い対象を包含した3Dスタイル編集のための総合的なベンチマークを提示し,多種多様な3D生成の研究を促進させる。
我々の比較分析によると、このパイプラインは人間の評価やCLIPスコアの指標から証明されたように、既存のテキスト・ツー・3D手法よりも優れている。
プロジェクトページ: https://controldreamer.github.io
関連論文リスト
- A Survey On Text-to-3D Contents Generation In The Wild [5.875257756382124]
3Dコンテンツ作成は、ゲーム、ロボットシミュレーション、仮想現実など、さまざまなアプリケーションにおいて重要な役割を果たす。
この課題に対処するために、テキストから3D生成技術が、3D生成を自動化するための有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2024-05-15T15:23:22Z) - Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning [52.81032340916171]
Coin3Dを使えば、ユーザーは基本的な形状から組み立てられた粗い幾何学的プロキシを使って3D生成を制御できる。
本手法は,3次元アセット生成タスクにおいて,制御性と柔軟性に優れる。
論文 参考訳(メタデータ) (2024-05-13T17:56:13Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - LucidDreaming: Controllable Object-Centric 3D Generation [11.965998779054079]
我々は3次元生成をきめ細かな制御が可能な効果的パイプラインとしてLucidDreamingを提案する。
単純なテキストプロンプトから推論できる3Dバウンディングボックスの最小限の入力しか必要としない。
本稿では,本手法が主流のScore Distillation Smplingベースの3D生成フレームワークのスペクトルに対して顕著な適応性を示すことを示す。
論文 参考訳(メタデータ) (2023-11-30T18:55:23Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。