論文の概要: Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation
- arxiv url: http://arxiv.org/abs/2510.15564v1
- Date: Fri, 17 Oct 2025 11:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.605393
- Title: Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation
- Title(参考訳): イマギナリウム:視覚誘導高画質3Dシーンレイアウト生成
- Authors: Xiaoming Zhu, Xu Huang, Qinghongbing Xie, Zhi Deng, Junsheng Yu, Yirui Guan, Zhongyuan Liu, Lin Zhu, Qijun Zhao, Ligang Liu, Long Zeng,
- Abstract要約: 本稿では,視覚誘導型3次元レイアウト生成システムを提案する。
まず,2,037のシーンアセットと147の3Dシーンレイアウトを含む高品質なアセットライブラリを構築した。
次に、画像生成モデルを用いて、プロンプト表現を画像に拡張し、それを微調整してアセットライブラリと整合させる。
シーングラフと全体視覚意味論を用いてシーンレイアウトを最適化し、画像との論理的コヒーレンスとアライメントを確保する。
- 参考スコア(独自算出の注目度): 27.13700598039439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating artistic and coherent 3D scene layouts is crucial in digital content creation. Traditional optimization-based methods are often constrained by cumbersome manual rules, while deep generative models face challenges in producing content with richness and diversity. Furthermore, approaches that utilize large language models frequently lack robustness and fail to accurately capture complex spatial relationships. To address these challenges, this paper presents a novel vision-guided 3D layout generation system. We first construct a high-quality asset library containing 2,037 scene assets and 147 3D scene layouts. Subsequently, we employ an image generation model to expand prompt representations into images, fine-tuning it to align with our asset library. We then develop a robust image parsing module to recover the 3D layout of scenes based on visual semantics and geometric information. Finally, we optimize the scene layout using scene graphs and overall visual semantics to ensure logical coherence and alignment with the images. Extensive user testing demonstrates that our algorithm significantly outperforms existing methods in terms of layout richness and quality. The code and dataset will be available at https://github.com/HiHiAllen/Imaginarium.
- Abstract(参考訳): 芸術的かつコヒーレントな3Dシーンレイアウトの生成は、デジタルコンテンツ作成に不可欠である。
従来の最適化に基づく手法は、しばしば厄介な手作業の規則によって制約されるが、深い生成モデルは、豊かさと多様性のあるコンテンツを制作する際の課題に直面している。
さらに、大規模言語モデルを利用するアプローチは、しばしば堅牢性を欠き、複雑な空間的関係を正確に捉えることができない。
これらの課題に対処するために,視覚誘導型3次元レイアウト生成システムを提案する。
まず,2,037のシーンアセットと147の3Dシーンレイアウトを含む高品質なアセットライブラリを構築した。
その後、画像生成モデルを用いて、画像にプロンプト表現を拡大し、それを微調整してアセットライブラリと整合させる。
次に,視覚的セマンティクスと幾何学的情報に基づいて,シーンの3次元レイアウトを復元するために,ロバストな画像解析モジュールを開発する。
最後に、シーングラフと全体視覚意味論を用いてシーンレイアウトを最適化し、画像との論理的コヒーレンスとアライメントを確保する。
大規模なユーザテストにより,我々のアルゴリズムは,レイアウトの豊かさと品質という点で,既存の手法よりも大幅に優れていたことが証明された。
コードとデータセットはhttps://github.com/HiHiAllen/Imaginarium.comから入手できる。
関連論文リスト
- ArtiScene: Language-Driven Artistic 3D Scene Generation Through Image Intermediary [37.41274496314127]
ArtiSceneは、シーンデザインのためのトレーニング不要の自動パイプラインである。
シーン記述から2D画像を生成し、オブジェクトの形状と外観を抽出し、3Dモデルを作成する。
測定基準によってレイアウトと美的品質の大きなマージンで最先端のベンチマークを上回ります。
論文 参考訳(メタデータ) (2025-05-31T23:03:54Z) - Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting [47.014044892025346]
Architectは、拡散ベースの2Dイメージのインペイントを活用する、複雑で現実的な3Dエボダイド環境を作成する、生成フレームワークである。
我々のパイプラインはさらに階層的かつ反復的な塗装プロセスに拡張され、大きな家具や小さな物体の配置を連続的に生成し、シーンを豊かにする。
論文 参考訳(メタデータ) (2024-11-14T22:15:48Z) - MaGRITTe: Manipulative and Generative 3D Realization from Image, Topview and Text [52.296914125558864]
ユーザ特定条件からの3Dシーンの生成は、3Dアプリケーションの生産負担を軽減するための有望な道を提供する。
以前の研究では、限られた制御条件のため、望まれるシーンを実現するためにかなりの努力が必要だった。
部分画像,トップビューに表現されたレイアウト情報,テキストプロンプトを用いて,マルチモーダル条件下での3Dシーンの制御と生成を行う手法を提案する。
論文 参考訳(メタデータ) (2024-03-30T12:50:25Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。