論文の概要: Control3D: Towards Controllable Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2311.05461v1
- Date: Thu, 9 Nov 2023 15:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:53:44.215803
- Title: Control3D: Towards Controllable Text-to-3D Generation
- Title(参考訳): control3d: 制御可能なテキストから3d生成へ
- Authors: Yang Chen and Yingwei Pan and Yehao Li and Ting Yao and Tao Mei
- Abstract要約: 本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
- 参考スコア(独自算出の注目度): 107.81136630589263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent remarkable advances in large-scale text-to-image diffusion models have
inspired a significant breakthrough in text-to-3D generation, pursuing 3D
content creation solely from a given text prompt. However, existing text-to-3D
techniques lack a crucial ability in the creative process: interactively
control and shape the synthetic 3D contents according to users' desired
specifications (e.g., sketch). To alleviate this issue, we present the first
attempt for text-to-3D generation conditioning on the additional hand-drawn
sketch, namely Control3D, which enhances controllability for users. In
particular, a 2D conditioned diffusion model (ControlNet) is remoulded to guide
the learning of 3D scene parameterized as NeRF, encouraging each view of 3D
scene aligned with the given text prompt and hand-drawn sketch. Moreover, we
exploit a pre-trained differentiable photo-to-sketch model to directly estimate
the sketch of the rendered image over synthetic 3D scene. Such estimated sketch
along with each sampled view is further enforced to be geometrically consistent
with the given sketch, pursuing better controllable text-to-3D generation.
Through extensive experiments, we demonstrate that our proposal can generate
accurate and faithful 3D scenes that align closely with the input text prompts
and sketches.
- Abstract(参考訳): 大規模テキスト・画像拡散モデルにおける最近の顕著な進歩は、与えられたテキストプロンプトからのみ3Dコンテンツを作成することによって、テキスト・ツー・3D生成に大きなブレークスルーをもたらした。
しかし、既存のテキストから3dへの技術は、ユーザの望む仕様(例えばスケッチ)に従って合成された3dコンテンツをインタラクティブに制御し、形作るという、創造的なプロセスにおいて重要な能力を欠いている。
そこで本研究では,手書きスケッチによるテキストから3d生成条件付けの最初の試みである control3d について述べる。
特に、2D条件付き拡散モデル(ControlNet)を再構成して、NeRFとしてパラメータ化された3Dシーンの学習を誘導し、与えられたテキストプロンプトと手書きスケッチに整合した3Dシーンの各ビューを奨励する。
さらに,事前学習可能なフォト・ツー・スケッチ・モデルを用いて,合成3Dシーン上でのレンダリング画像のスケッチを直接推定する。
このような推定スケッチと各サンプルビューは、与えられたスケッチと幾何学的に整合するようにさらに強制され、より制御可能なテキスト・ツー・3D生成が追求される。
広範な実験を通じて,提案手法は,入力テキストのプロンプトやスケッチと密接に関連した,正確で忠実な3dシーンを生成できることを実証する。
関連論文リスト
- 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation [37.93542778715304]
スケッチ誘導型テキストから3D生成フレームワーク(Sketch2NeRF)を提案し、3D生成にスケッチ制御を追加する。
本手法は,スケッチの類似性やテキストアライメントの観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-01-25T15:49:12Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [30.951440204237166]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [53.986321389412154]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models [21.622420436349245]
入力としてテキストプロンプトからルームスケールのテクスチャ化された3Dメッシュを生成する方法であるText2Roomを提案する。
我々は、事前訓練された2次元テキスト・画像モデルを利用して、異なるポーズから画像列を合成する。
これらの出力を一貫した3次元シーン表現に引き上げるために、単眼深度推定とテキスト条件のインペイントモデルを組み合わせる。
論文 参考訳(メタデータ) (2023-03-21T16:21:02Z) - Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and
Text-to-Image Diffusion Models [44.34479731617561]
我々はCLIP誘導3次元最適化プロセスに明示的な3次元形状前処理を導入する。
テキストと画像のモダリティを直接、強力なテキストと画像の拡散モデルでブリッジする、シンプルで効果的なアプローチを提案する。
提案手法であるDream3Dは,視覚的品質と形状の精度に優れた想像的3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2022-12-28T18:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。