論文の概要: Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation
- arxiv url: http://arxiv.org/abs/2408.14819v1
- Date: Tue, 27 Aug 2024 07:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 14:45:05.233822
- Title: Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation
- Title(参考訳): Build-A-Scene:拡散画像生成のためのインタラクティブ3次元レイアウト制御
- Authors: Abdelrahman Eldesokey, Peter Wonka,
- Abstract要約: インタラクティブな3次元レイアウト制御によるテキスト・ツー・イメージ(T2I)生成のための拡散型アプローチを提案する。
レイアウト制御に使用される従来の2Dボックスを3Dボックスに置き換える。
我々は,T2Iタスクを多段階生成プロセスとして再設計し,各段階において,オブジェクトを初期から保存しながら3次元に挿入,変更,移動することが可能となる。
- 参考スコア(独自算出の注目度): 44.18315132571804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a diffusion-based approach for Text-to-Image (T2I) generation with interactive 3D layout control. Layout control has been widely studied to alleviate the shortcomings of T2I diffusion models in understanding objects' placement and relationships from text descriptions. Nevertheless, existing approaches for layout control are limited to 2D layouts, require the user to provide a static layout beforehand, and fail to preserve generated images under layout changes. This makes these approaches unsuitable for applications that require 3D object-wise control and iterative refinements, e.g., interior design and complex scene generation. To this end, we leverage the recent advancements in depth-conditioned T2I models and propose a novel approach for interactive 3D layout control. We replace the traditional 2D boxes used in layout control with 3D boxes. Furthermore, we revamp the T2I task as a multi-stage generation process, where at each stage, the user can insert, change, and move an object in 3D while preserving objects from earlier stages. We achieve this through our proposed Dynamic Self-Attention (DSA) module and the consistent 3D object translation strategy. Experiments show that our approach can generate complicated scenes based on 3D layouts, boosting the object generation success rate over the standard depth-conditioned T2I methods by 2x. Moreover, it outperforms other methods in comparison in preserving objects under layout changes. Project Page: \url{https://abdo-eldesokey.github.io/build-a-scene/}
- Abstract(参考訳): インタラクティブな3次元レイアウト制御によるテキスト・ツー・イメージ(T2I)生成のための拡散型アプローチを提案する。
レイアウト制御は、オブジェクトの位置やテキスト記述からの関係を理解する際に、T2I拡散モデルの欠点を軽減するために広く研究されている。
それでも、レイアウト制御の既存のアプローチは2Dレイアウトに限定されており、ユーザーは事前に静的なレイアウトを提供する必要があり、レイアウト変更時に生成されたイメージを保存できない。
これにより、これらのアプローチは、3Dオブジェクトワイズ制御と反復的な改善、例えばインテリアデザイン、複雑なシーン生成を必要とするアプリケーションには適さない。
そこで我々は,近年の深度条件付きT2Iモデルの進歩を活用し,インタラクティブな3次元レイアウト制御のための新しいアプローチを提案する。
レイアウト制御に使用される従来の2Dボックスを3Dボックスに置き換える。
さらに,T2Iタスクを多段階生成プロセスとして再設計し,各段階において,オブジェクトを初期から保存しながら3次元に挿入,変更,移動することが可能となる。
提案した動的自己認識(DSA)モジュールと、一貫した3次元オブジェクト変換戦略により、これを実現する。
実験により,本手法は3次元レイアウトに基づいて複雑なシーンを生成することができ,標準深度条件のT2I法よりも2倍のオブジェクト生成の成功率を向上できることが示された。
さらに、レイアウト変更によるオブジェクトの保存において、他のメソッドよりも優れています。
Project Page: \url{https://abdo-eldesokey.github.io/build-a-scene/}
関連論文リスト
- Layout-your-3D: Controllable and Precise 3D Generation with 2D Blueprint [61.25279122171029]
テキストプロンプトから制御可能で構成可能な3D生成が可能なフレームワークを提案する。
提案手法は2次元レイアウトを青写真として活用し,3次元生成の精密かつ確実な制御を容易にする。
論文 参考訳(メタデータ) (2024-10-20T13:41:50Z) - iControl3D: An Interactive System for Controllable 3D Scene Generation [57.048647153684485]
iControl3Dは、ユーザがカスタマイズ可能な3Dシーンを正確なコントロールで生成およびレンダリングできるようにする、新しいインタラクティブシステムである。
我々は3Dメッシュを仲介プロキシとして利用し、個別の2D拡散生成画像を結合的で統一された3Dシーン表現に反復的にマージする。
私たちのニューラルレンダリングインターフェースは、ユーザが自分のシーンのラディアンスフィールドをオンラインで構築し、シーン全体をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-08-03T06:35:09Z) - Interactive3D: Create What You Want by Interactive 3D Generation [13.003964182554572]
我々はインタラクティブな3D生成のための革新的なフレームワークであるInteractive3Dを紹介した。
実験の結果,Interactive3Dは3D生成の制御性と品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-25T11:06:57Z) - Customizing Text-to-Image Diffusion with Camera Viewpoint Control [53.621518249820745]
モデルカスタマイズのためのカメラ視点の明示的な制御を可能にする新しいタスクを導入する。
これにより、テキストプロンプトによって、さまざまな背景シーンのオブジェクトプロパティを変更することができます。
本稿では,新しいオブジェクトのレンダリング・ビュー依存的な特徴に対して,2次元拡散過程を条件付けることを提案する。
論文 参考訳(メタデータ) (2024-04-18T16:59:51Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - DreamControl: Control-Based Text-to-3D Generation with 3D Self-Prior [97.694840981611]
本稿では,DreamControlという2段階の2Dリフトフレームワークを提案する。
制御ベースのスコア蒸留による微粒なオブジェクトを生成する。
DreamControlは、幾何学的一貫性とテクスチャ忠実度の両方の観点から、高品質な3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2023-12-11T15:12:50Z) - Ctrl-Room: Controllable Text-to-3D Room Meshes Generation with Layout Constraints [35.073500525250346]
我々はCtrl-Roomを提案する。Ctrl-Roomは、デザイナースタイルのレイアウトとテキストプロンプトから高忠実なテクスチャを持つ説得力のある3Dルームを生成できる。
Ctrl-Roomは、個々の家具アイテムのリサイズや移動といった多目的なインタラクティブな編集操作を可能にする。
論文 参考訳(メタデータ) (2023-10-05T15:29:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。