Fugu-MT 論文翻訳(概要): LucidDreaming: Controllable Object-Centric 3D Generation

論文の概要: LucidDreaming: Controllable Object-Centric 3D Generation

arxiv url: http://arxiv.org/abs/2312.00588v1
Date: Thu, 30 Nov 2023 18:55:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 14:32:45.958618
Title: LucidDreaming: Controllable Object-Centric 3D Generation
Title（参考訳）: LucidDreaming:制御可能なオブジェクト中心3D生成
Authors: Zhaoning Wang, Ming Li, Chen Chen
Abstract要約: 我々は3次元生成をきめ細かな制御が可能な効果的パイプラインとしてLucidDreamingを提案する。単純なテキストプロンプトから推論できる3Dバウンディングボックスの最小限の入力しか必要としない。本稿では,本手法が主流のScore Distillation Smplingベースの3D生成フレームワークのスペクトルに対して顕著な適応性を示すことを示す。
参考スコア（独自算出の注目度）: 11.965998779054079
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the recent development of generative models, Text-to-3D generations have also seen significant growth. Nonetheless, achieving precise control over 3D generation continues to be an arduous task, as using text to control often leads to missing objects and imprecise locations. Contemporary strategies for enhancing controllability in 3D generation often entail the introduction of additional parameters, such as customized diffusion models. This often induces hardness in adapting to different diffusion models or creating distinct objects. In this paper, we present LucidDreaming as an effective pipeline capable of fine-grained control over 3D generation. It requires only minimal input of 3D bounding boxes, which can be deduced from a simple text prompt using a Large Language Model. Specifically, we propose clipped ray sampling to separately render and optimize objects with user specifications. We also introduce object-centric density blob bias, fostering the separation of generated objects. With individual rendering and optimizing of objects, our method excels not only in controlled content generation from scratch but also within the pre-trained NeRF scenes. In such scenarios, existing generative approaches often disrupt the integrity of the original scene, and current editing methods struggle to synthesize new content in empty spaces. We show that our method exhibits remarkable adaptability across a spectrum of mainstream Score Distillation Sampling-based 3D generation frameworks, and achieves superior alignment of 3D content when compared to baseline approaches. We also provide a dataset of prompts with 3D bounding boxes, benchmarking 3D spatial controllability.
Abstract（参考訳）: 最近の生成モデルの開発により、Text-to-3D世代も著しい成長を遂げた。それでも、3d生成の正確な制御は、テキストを使って制御することがしばしば行方不明のオブジェクトや不正確な場所につながるため、いまだに困難な作業である。 3次元生成における制御可能性を高めるための現代の戦略は、しばしばカスタマイズされた拡散モデルのような追加のパラメータを導入する。これはしばしば異なる拡散モデルに適応したり、異なるオブジェクトを作成する際に困難を引き起こす。本稿では,3次元生成をきめ細かな制御が可能な効果的パイプラインとしてLucidDreamingを提案する。 3Dバウンディングボックスの最小限の入力しか必要とせず、大きな言語モデルを使って単純なテキストプロンプトから推論できる。具体的には、ユーザ仕様でオブジェクトを別々にレンダリングし、最適化するためのクリップレイサンプリングを提案する。また,オブジェクト中心の密度ブロブバイアスを導入し,生成されたオブジェクトの分離を促進する。オブジェクトの個別のレンダリングと最適化により、スクラッチから制御されたコンテンツ生成だけでなく、事前訓練されたNeRFシーンにも優れる。このようなシナリオでは、既存の生成的アプローチは、しばしば元のシーンの整合性を阻害し、現在の編集手法は空の空間で新しいコンテンツを合成するのに苦労する。その結果,本手法は主流のスコア蒸留サンプリングベースの3d生成フレームワークにおいて優れた適応性を示し,ベースラインアプローチと比較して優れた3dコンテンツアライメントを実現する。また,3次元空間制御性をベンチマークした3次元境界ボックスによるプロンプトのデータセットも提供する。

関連論文リスト

Spatial 3D-LLM: Exploring Spatial Awareness in 3D Vision-Language Models [12.545622346725544]
新しい時代は、大規模言語モデル(LLM)を拡張して3Dビジョン言語タスクに取り組むという、エキサイティングな可能性を解き放ちました。本研究では,3次元視覚言語タスクの空間認識を高めるために設計された3次元MLLMであるSpatial 3D-LLMを提案する。本稿では,3次元物体距離計測と3次元レイアウト編集の2つの新しいタスクを紹介し,モデルの空間認識能力を評価するために3次元命令データセットであるMODELを構築した。
論文参考訳（メタデータ） (2025-07-22T12:32:35Z)
Toward Scene Graph and Layout Guided Complex 3D Scene Generation [31.396230860775415]
Scene GraphとLayout Guided 3D Scene Generation(GraLa3D)の新たなフレームワークを提案する。複雑な3Dシーンを記述するテキストプロンプトが与えられたとき、GraLa3Dはレイアウト境界ボックス情報を持つシーングラフ表現を使用してシーンをモデル化する。 GraLa3Dは、単一オブジェクトノードと複合スーパーノードでシーングラフを独自に構築する。
論文参考訳（メタデータ） (2024-12-29T14:21:03Z)
Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。 OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文参考訳（メタデータ） (2024-11-23T21:37:21Z)
iControl3D: An Interactive System for Controllable 3D Scene Generation [57.048647153684485]
iControl3Dは、ユーザがカスタマイズ可能な3Dシーンを正確なコントロールで生成およびレンダリングできるようにする、新しいインタラクティブシステムである。我々は3Dメッシュを仲介プロキシとして利用し、個別の2D拡散生成画像を結合的で統一された3Dシーン表現に反復的にマージする。私たちのニューラルレンダリングインターフェースは、ユーザが自分のシーンのラディアンスフィールドをオンラインで構築し、シーン全体をナビゲートすることを可能にする。
論文参考訳（メタデータ） (2024-08-03T06:35:09Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文参考訳（メタデータ） (2024-03-14T14:31:22Z)
Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文参考訳（メタデータ） (2023-12-12T18:57:25Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。