論文の概要: LucidDreaming: Controllable Object-Centric 3D Generation
- arxiv url: http://arxiv.org/abs/2312.00588v1
- Date: Thu, 30 Nov 2023 18:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 14:32:45.958618
- Title: LucidDreaming: Controllable Object-Centric 3D Generation
- Title(参考訳): LucidDreaming:制御可能なオブジェクト中心3D生成
- Authors: Zhaoning Wang, Ming Li, Chen Chen
- Abstract要約: 我々は3次元生成をきめ細かな制御が可能な効果的パイプラインとしてLucidDreamingを提案する。
単純なテキストプロンプトから推論できる3Dバウンディングボックスの最小限の入力しか必要としない。
本稿では,本手法が主流のScore Distillation Smplingベースの3D生成フレームワークのスペクトルに対して顕著な適応性を示すことを示す。
- 参考スコア(独自算出の注目度): 11.965998779054079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent development of generative models, Text-to-3D generations have
also seen significant growth. Nonetheless, achieving precise control over 3D
generation continues to be an arduous task, as using text to control often
leads to missing objects and imprecise locations. Contemporary strategies for
enhancing controllability in 3D generation often entail the introduction of
additional parameters, such as customized diffusion models. This often induces
hardness in adapting to different diffusion models or creating distinct
objects.
In this paper, we present LucidDreaming as an effective pipeline capable of
fine-grained control over 3D generation. It requires only minimal input of 3D
bounding boxes, which can be deduced from a simple text prompt using a Large
Language Model. Specifically, we propose clipped ray sampling to separately
render and optimize objects with user specifications. We also introduce
object-centric density blob bias, fostering the separation of generated
objects. With individual rendering and optimizing of objects, our method excels
not only in controlled content generation from scratch but also within the
pre-trained NeRF scenes. In such scenarios, existing generative approaches
often disrupt the integrity of the original scene, and current editing methods
struggle to synthesize new content in empty spaces. We show that our method
exhibits remarkable adaptability across a spectrum of mainstream Score
Distillation Sampling-based 3D generation frameworks, and achieves superior
alignment of 3D content when compared to baseline approaches. We also provide a
dataset of prompts with 3D bounding boxes, benchmarking 3D spatial
controllability.
- Abstract(参考訳): 最近の生成モデルの開発により、Text-to-3D世代も著しい成長を遂げた。
それでも、3d生成の正確な制御は、テキストを使って制御することがしばしば行方不明のオブジェクトや不正確な場所につながるため、いまだに困難な作業である。
3次元生成における制御可能性を高めるための現代の戦略は、しばしばカスタマイズされた拡散モデルのような追加のパラメータを導入する。
これはしばしば異なる拡散モデルに適応したり、異なるオブジェクトを作成する際に困難を引き起こす。
本稿では,3次元生成をきめ細かな制御が可能な効果的パイプラインとしてLucidDreamingを提案する。
3Dバウンディングボックスの最小限の入力しか必要とせず、大きな言語モデルを使って単純なテキストプロンプトから推論できる。
具体的には、ユーザ仕様でオブジェクトを別々にレンダリングし、最適化するためのクリップレイサンプリングを提案する。
また,オブジェクト中心の密度ブロブバイアスを導入し,生成されたオブジェクトの分離を促進する。
オブジェクトの個別のレンダリングと最適化により、スクラッチから制御されたコンテンツ生成だけでなく、事前訓練されたNeRFシーンにも優れる。
このようなシナリオでは、既存の生成的アプローチは、しばしば元のシーンの整合性を阻害し、現在の編集手法は空の空間で新しいコンテンツを合成するのに苦労する。
その結果,本手法は主流のスコア蒸留サンプリングベースの3d生成フレームワークにおいて優れた適応性を示し,ベースラインアプローチと比較して優れた3dコンテンツアライメントを実現する。
また,3次元空間制御性をベンチマークした3次元境界ボックスによるプロンプトのデータセットも提供する。
関連論文リスト
- Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - iControl3D: An Interactive System for Controllable 3D Scene Generation [57.048647153684485]
iControl3Dは、ユーザがカスタマイズ可能な3Dシーンを正確なコントロールで生成およびレンダリングできるようにする、新しいインタラクティブシステムである。
我々は3Dメッシュを仲介プロキシとして利用し、個別の2D拡散生成画像を結合的で統一された3Dシーン表現に反復的にマージする。
私たちのニューラルレンダリングインターフェースは、ユーザが自分のシーンのラディアンスフィールドをオンラインで構築し、シーン全体をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-08-03T06:35:09Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。