論文の概要: Control3D: Towards Controllable Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2311.05461v1
- Date: Thu, 9 Nov 2023 15:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:53:44.215803
- Title: Control3D: Towards Controllable Text-to-3D Generation
- Title(参考訳): control3d: 制御可能なテキストから3d生成へ
- Authors: Yang Chen and Yingwei Pan and Yehao Li and Ting Yao and Tao Mei
- Abstract要約: 本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
- 参考スコア(独自算出の注目度): 107.81136630589263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent remarkable advances in large-scale text-to-image diffusion models have
inspired a significant breakthrough in text-to-3D generation, pursuing 3D
content creation solely from a given text prompt. However, existing text-to-3D
techniques lack a crucial ability in the creative process: interactively
control and shape the synthetic 3D contents according to users' desired
specifications (e.g., sketch). To alleviate this issue, we present the first
attempt for text-to-3D generation conditioning on the additional hand-drawn
sketch, namely Control3D, which enhances controllability for users. In
particular, a 2D conditioned diffusion model (ControlNet) is remoulded to guide
the learning of 3D scene parameterized as NeRF, encouraging each view of 3D
scene aligned with the given text prompt and hand-drawn sketch. Moreover, we
exploit a pre-trained differentiable photo-to-sketch model to directly estimate
the sketch of the rendered image over synthetic 3D scene. Such estimated sketch
along with each sampled view is further enforced to be geometrically consistent
with the given sketch, pursuing better controllable text-to-3D generation.
Through extensive experiments, we demonstrate that our proposal can generate
accurate and faithful 3D scenes that align closely with the input text prompts
and sketches.
- Abstract(参考訳): 大規模テキスト・画像拡散モデルにおける最近の顕著な進歩は、与えられたテキストプロンプトからのみ3Dコンテンツを作成することによって、テキスト・ツー・3D生成に大きなブレークスルーをもたらした。
しかし、既存のテキストから3dへの技術は、ユーザの望む仕様(例えばスケッチ)に従って合成された3dコンテンツをインタラクティブに制御し、形作るという、創造的なプロセスにおいて重要な能力を欠いている。
そこで本研究では,手書きスケッチによるテキストから3d生成条件付けの最初の試みである control3d について述べる。
特に、2D条件付き拡散モデル(ControlNet)を再構成して、NeRFとしてパラメータ化された3Dシーンの学習を誘導し、与えられたテキストプロンプトと手書きスケッチに整合した3Dシーンの各ビューを奨励する。
さらに,事前学習可能なフォト・ツー・スケッチ・モデルを用いて,合成3Dシーン上でのレンダリング画像のスケッチを直接推定する。
このような推定スケッチと各サンプルビューは、与えられたスケッチと幾何学的に整合するようにさらに強制され、より制御可能なテキスト・ツー・3D生成が追求される。
広範な実験を通じて,提案手法は,入力テキストのプロンプトやスケッチと密接に関連した,正確で忠実な3dシーンを生成できることを実証する。
関連論文リスト
- Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - Diff3DS: Generating View-Consistent 3D Sketch via Differentiable Curve Rendering [17.918603435615335]
3Dスケッチは、オブジェクトやシーンの3D形状と構造を視覚的に表現するために広く使用されている。
Diff3DSは、ビュー一貫性のある3Dスケッチを生成するための、新しい差別化可能なフレームワークである。
我々のフレームワークは3Dスケッチとカスタマイズされた画像のドメインをブリッジし、3Dスケッチのエンドツーエンド最適化を実現する。
論文 参考訳(メタデータ) (2024-05-24T07:48:14Z) - Sketch2Prototype: Rapid Conceptual Design Exploration and Prototyping with Generative AI [3.936104238911733]
Sketch2Prototypeは、手描きのスケッチを多種多様な2D画像と3Dプロトタイプに変換するAIベースのフレームワークである。
テキストを中間モダリティとして用いることで、多種多様な製造可能な3Dモデルを生成するために、直接スケッチから3Dのベースラインを上回ります。
論文 参考訳(メタデータ) (2024-03-26T02:12:17Z) - VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation [96.62867261689037]
視覚プロンプト誘導型3次元拡散モデル(VP3D)を提案する。
VP3Dは、テキストから3D生成を促進するために、2D視覚プロンプトの視覚的外観知識を明示的に解放する。
実験の結果,VP3Dの2次元視覚プロンプトは3次元モデルの視覚的外観の学習を著しく容易にすることがわかった。
論文 参考訳(メタデータ) (2024-03-25T17:59:31Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation [37.93542778715304]
スケッチ誘導型テキストから3D生成フレームワーク(Sketch2NeRF)を提案し、3D生成にスケッチ制御を追加する。
本手法は,スケッチの類似性やテキストアライメントの観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-01-25T15:49:12Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and
Text-to-Image Diffusion Models [44.34479731617561]
我々はCLIP誘導3次元最適化プロセスに明示的な3次元形状前処理を導入する。
テキストと画像のモダリティを直接、強力なテキストと画像の拡散モデルでブリッジする、シンプルで効果的なアプローチを提案する。
提案手法であるDream3Dは,視覚的品質と形状の精度に優れた想像的3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2022-12-28T18:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。