論文の概要: LucidDreaming: Controllable Object-Centric 3D Generation
- arxiv url: http://arxiv.org/abs/2312.00588v2
- Date: Fri, 9 Aug 2024 17:34:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 20:40:55.682844
- Title: LucidDreaming: Controllable Object-Centric 3D Generation
- Title(参考訳): LucidDreaming:制御可能なオブジェクト中心の3D生成
- Authors: Zhaoning Wang, Ming Li, Chen Chen,
- Abstract要約: 本稿では,テキストプロンプトコマンドや3Dバウンディングボックスのみから3次元生成を空間的,数値的に制御できるパイプラインを提案する。
LucidDreamingは、現在のアプローチと比較して、オブジェクトの配置精度と生成精度において優れた結果を得る。
- 参考スコア(独自算出の注目度): 10.646855651524387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent development of generative models, Text-to-3D generations have also seen significant growth, opening a door for creating video-game 3D assets from a more general public. Nonetheless, people without any professional 3D editing experience would find it hard to achieve precise control over the 3D generation, especially if there are multiple objects in the prompt, as using text to control often leads to missing objects and imprecise locations. In this paper, we present LucidDreaming as an effective pipeline capable of spatial and numerical control over 3D generation from only textual prompt commands or 3D bounding boxes. Specifically, our research demonstrates that Large Language Models (LLMs) possess 3D spatial awareness and can effectively translate textual 3D information into precise 3D bounding boxes. We leverage LLMs to get individual object information and their 3D bounding boxes as the initial step of our process. Then with the bounding boxes, We further propose clipped ray sampling and object-centric density blob bias to generate 3D objects aligning with the bounding boxes. We show that our method exhibits remarkable adaptability across a spectrum of mainstream Score Distillation Sampling-based 3D generation frameworks and our pipeline can even used to insert objects into an existing NeRF scene. Moreover, we also provide a dataset of prompts with 3D bounding boxes, benchmarking 3D spatial controllability. With extensive qualitative and quantitative experiments, we demonstrate that LucidDreaming achieves superior results in object placement precision and generation fidelity compared to current approaches, while maintaining flexibility and ease of use for non-expert users.
- Abstract(参考訳): 最近の生成モデルの開発により、Text-to-3D世代も大幅に成長し、より一般大衆からビデオゲームの3Dアセットを作成するための扉を開いた。
しかし、プロの3D編集経験のない人なら、特にプロンプトに複数のオブジェクトがある場合、特にテキストを使って制御することは、欠落したオブジェクトや不正確な位置につながることが多いため、正確な3D生成の制御を達成できないだろう。
本稿では,テキストプロンプトコマンドや3Dバウンディングボックスのみから,空間的および数値的に3D生成を制御できる効果的なパイプラインとしてLucidDreamingを提案する。
具体的には,Large Language Models (LLMs) が3次元空間認識を持ち,テキスト3次元情報を正確な3次元境界ボックスに効果的に翻訳できることを実証する。
LLMを利用して、個々のオブジェクト情報とその3Dバウンディングボックスをプロセスの初期段階として取得します。
次に, 境界ボックスを用いて, クリッピング線サンプリングと物体中心密度ブロブバイアスを提案し, 境界ボックスに整合した3次元オブジェクトを生成する。
我々は,本手法が主流のScore Distillation Smplingベースの3D生成フレームワークに対して顕著な適応性を示すことを示すとともに,既存のNeRFシーンにオブジェクトを挿入することも可能だ。
さらに,3次元空間制御性をベンチマークした3次元境界ボックスによるプロンプトのデータセットも提供する。
定性的かつ定量的な実験により、LucidDreamingは、既存のアプローチと比較してオブジェクト配置精度と生成忠実度において優れた結果を得るとともに、非熟練ユーザに対する柔軟性と使いやすさを維持できることを示した。
関連論文リスト
- iControl3D: An Interactive System for Controllable 3D Scene Generation [57.048647153684485]
iControl3Dは、ユーザがカスタマイズ可能な3Dシーンを正確なコントロールで生成およびレンダリングできるようにする、新しいインタラクティブシステムである。
我々は3Dメッシュを仲介プロキシとして利用し、個別の2D拡散生成画像を結合的で統一された3Dシーン表現に反復的にマージする。
私たちのニューラルレンダリングインターフェースは、ユーザが自分のシーンのラディアンスフィールドをオンラインで構築し、シーン全体をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-08-03T06:35:09Z) - General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。