論文の概要: FreeScene: Mixed Graph Diffusion for 3D Scene Synthesis from Free Prompts
- arxiv url: http://arxiv.org/abs/2506.02781v1
- Date: Tue, 03 Jun 2025 12:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.613009
- Title: FreeScene: Mixed Graph Diffusion for 3D Scene Synthesis from Free Prompts
- Title(参考訳): FreeScene: フリープロンプトからの3次元シーン合成のための混合グラフ拡散
- Authors: Tongyuan Bai, Wangyuanfan Bai, Dong Chen, Tieru Wu, Manyi Li, Rui Ma,
- Abstract要約: 室内3次元シーン合成の実用化において,制御性は重要な役割を担っている。
室内シーン合成に便利かつ効果的に制御できる,ユーザフレンドリーなフレームワークFreeSceneを提案する。
次に、シーン生成を向上させるために、グラフ認識復調を行う混合グラフ拡散変換器MG-DiTを提案する。
- 参考スコア(独自算出の注目度): 12.311467043135869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllability plays a crucial role in the practical applications of 3D indoor scene synthesis. Existing works either allow rough language-based control, that is convenient but lacks fine-grained scene customization, or employ graph based control, which offers better controllability but demands considerable knowledge for the cumbersome graph design process. To address these challenges, we present FreeScene, a user-friendly framework that enables both convenient and effective control for indoor scene synthesis.Specifically, FreeScene supports free-form user inputs including text description and/or reference images, allowing users to express versatile design intentions. The user inputs are adequately analyzed and integrated into a graph representation by a VLM-based Graph Designer. We then propose MG-DiT, a Mixed Graph Diffusion Transformer, which performs graph-aware denoising to enhance scene generation. Our MG-DiT not only excels at preserving graph structure but also offers broad applicability to various tasks, including, but not limited to, text-to-scene, graph-to-scene, and rearrangement, all within a single model. Extensive experiments demonstrate that FreeScene provides an efficient and user-friendly solution that unifies text-based and graph based scene synthesis, outperforming state-of-the-art methods in terms of both generation quality and controllability in a range of applications.
- Abstract(参考訳): 室内3次元シーン合成の実用化において,制御性は重要な役割を担っている。
既存の作業は粗い言語ベースの制御を可能にするか、便利だがきめ細かいシーンのカスタマイズを欠いているか、あるいはより優れた制御性を提供するが、面倒なグラフ設計プロセスにはかなりの知識を必要とするグラフベースの制御を使用する。
これらの課題に対処するため,ユーザフレンドリなフレームワークであるFreeSceneを提案する。特に,テキスト記述や参照画像を含む自由形式のユーザ入力をサポートし,ユーザが多目的な設計意図を表現できるようにする。
ユーザ入力を適切に分析し、VLMベースのグラフデザイナによりグラフ表現に統合する。
次に、シーン生成を向上させるために、グラフ認識復調を行う混合グラフ拡散変換器MG-DiTを提案する。
我々のMG-DiTはグラフ構造の保存に優れるだけでなく、テキスト・ツー・シーン、グラフ・ツー・シーン、再配置といった様々なタスクにも幅広い適用性を提供します。
広範な実験により、FreeSceneはテキストベースとグラフベースのシーン合成を統一する効率的でユーザフレンドリなソリューションを提供し、様々なアプリケーションにおける生成品質と制御性の両方の観点から、最先端の手法よりも優れています。
関連論文リスト
- MMGDreamer: Mixed-Modality Graph for Geometry-Controllable 3D Indoor Scene Generation [14.959772906099039]
MMGDreamerは、Mixed-Modality Graphを組み込んだシーン生成のための二重ブランチ拡散モデルである。
ビジュアルエンハンスメントモジュールは、テキスト埋め込みを使用して視覚表現を構築することで、テキストのみのノードの視覚的忠実度を高める。
我々の関係予測器はノード表現を利用してノード間の不連続な関係を推定し、より一貫性のあるシーンレイアウトをもたらす。
論文 参考訳(メタデータ) (2025-02-09T12:23:40Z) - InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。