論文の概要: LucidDreaming: Controllable Object-Centric 3D Generation
- arxiv url: http://arxiv.org/abs/2312.00588v1
- Date: Thu, 30 Nov 2023 18:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 14:32:45.958618
- Title: LucidDreaming: Controllable Object-Centric 3D Generation
- Title(参考訳): LucidDreaming:制御可能なオブジェクト中心3D生成
- Authors: Zhaoning Wang, Ming Li, Chen Chen
- Abstract要約: 我々は3次元生成をきめ細かな制御が可能な効果的パイプラインとしてLucidDreamingを提案する。
単純なテキストプロンプトから推論できる3Dバウンディングボックスの最小限の入力しか必要としない。
本稿では,本手法が主流のScore Distillation Smplingベースの3D生成フレームワークのスペクトルに対して顕著な適応性を示すことを示す。
- 参考スコア(独自算出の注目度): 11.965998779054079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent development of generative models, Text-to-3D generations have
also seen significant growth. Nonetheless, achieving precise control over 3D
generation continues to be an arduous task, as using text to control often
leads to missing objects and imprecise locations. Contemporary strategies for
enhancing controllability in 3D generation often entail the introduction of
additional parameters, such as customized diffusion models. This often induces
hardness in adapting to different diffusion models or creating distinct
objects.
In this paper, we present LucidDreaming as an effective pipeline capable of
fine-grained control over 3D generation. It requires only minimal input of 3D
bounding boxes, which can be deduced from a simple text prompt using a Large
Language Model. Specifically, we propose clipped ray sampling to separately
render and optimize objects with user specifications. We also introduce
object-centric density blob bias, fostering the separation of generated
objects. With individual rendering and optimizing of objects, our method excels
not only in controlled content generation from scratch but also within the
pre-trained NeRF scenes. In such scenarios, existing generative approaches
often disrupt the integrity of the original scene, and current editing methods
struggle to synthesize new content in empty spaces. We show that our method
exhibits remarkable adaptability across a spectrum of mainstream Score
Distillation Sampling-based 3D generation frameworks, and achieves superior
alignment of 3D content when compared to baseline approaches. We also provide a
dataset of prompts with 3D bounding boxes, benchmarking 3D spatial
controllability.
- Abstract(参考訳): 最近の生成モデルの開発により、Text-to-3D世代も著しい成長を遂げた。
それでも、3d生成の正確な制御は、テキストを使って制御することがしばしば行方不明のオブジェクトや不正確な場所につながるため、いまだに困難な作業である。
3次元生成における制御可能性を高めるための現代の戦略は、しばしばカスタマイズされた拡散モデルのような追加のパラメータを導入する。
これはしばしば異なる拡散モデルに適応したり、異なるオブジェクトを作成する際に困難を引き起こす。
本稿では,3次元生成をきめ細かな制御が可能な効果的パイプラインとしてLucidDreamingを提案する。
3Dバウンディングボックスの最小限の入力しか必要とせず、大きな言語モデルを使って単純なテキストプロンプトから推論できる。
具体的には、ユーザ仕様でオブジェクトを別々にレンダリングし、最適化するためのクリップレイサンプリングを提案する。
また,オブジェクト中心の密度ブロブバイアスを導入し,生成されたオブジェクトの分離を促進する。
オブジェクトの個別のレンダリングと最適化により、スクラッチから制御されたコンテンツ生成だけでなく、事前訓練されたNeRFシーンにも優れる。
このようなシナリオでは、既存の生成的アプローチは、しばしば元のシーンの整合性を阻害し、現在の編集手法は空の空間で新しいコンテンツを合成するのに苦労する。
その結果,本手法は主流のスコア蒸留サンプリングベースの3d生成フレームワークにおいて優れた適応性を示し,ベースラインアプローチと比較して優れた3dコンテンツアライメントを実現する。
また,3次元空間制御性をベンチマークした3次元境界ボックスによるプロンプトのデータセットも提供する。
関連論文リスト
- 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided
Generative Gaussian Splatting [54.39663556987393]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - ControlDreamer: Stylized 3D Generation with Multi-View ControlNet [34.92628800597151]
我々は、慎重にキュレートされたテキストコーパスからデータセットに基づいて訓練された、新しい深度対応多視点拡散モデルであるMulti-view ControlNetを紹介する。
マルチビューコントロールネットは、2段階のパイプラインであるControlDreamerに統合され、テキストガイドによるスタイリングされた3Dモデルの生成を可能にします。
論文 参考訳(メタデータ) (2023-12-02T13:04:54Z) - Spice-E : Structural Priors in 3D Diffusion using Cross-Entity Attention [9.52027244702166]
Spice-Eは3D拡散モデルに構造ガイダンスを追加するニューラルネットワークである。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-29T17:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。