論文の概要: Programmable-Room: Interactive Textured 3D Room Meshes Generation Empowered by Large Language Models
- arxiv url: http://arxiv.org/abs/2506.17707v1
- Date: Sat, 21 Jun 2025 13:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.550123
- Title: Programmable-Room: Interactive Textured 3D Room Meshes Generation Empowered by Large Language Models
- Title(参考訳): Programmable-Room:大規模言語モデルを活用したインタラクティブなテクスチャ付き3Dルームメッシュ生成
- Authors: Jihyun Kim, Junho Park, Kyeongbo Kong, Suk-Ju Kang,
- Abstract要約: Programmable-Roomは、自然言語命令を与えられた3Dルームメッシュをインタラクティブに生成し、編集するフレームワークである。
部屋のそれぞれの属性を正確に制御するために、難易度タスクを、部屋メッシュの可塑性3D座標の作成など、より単純なステップに分解する。
統合されたフレームワークで様々な分解タスクをサポートするため、ビジュアルプログラミング(VP)を取り入れる。
- 参考スコア(独自算出の注目度): 16.828694984680553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Programmable-Room, a framework which interactively generates and edits a 3D room mesh, given natural language instructions. For precise control of a room's each attribute, we decompose the challenging task into simpler steps such as creating plausible 3D coordinates for room meshes, generating panorama images for the texture, constructing 3D meshes by integrating the coordinates and panorama texture images, and arranging furniture. To support the various decomposed tasks with a unified framework, we incorporate visual programming (VP). VP is a method that utilizes a large language model (LLM) to write a Python-like program which is an ordered list of necessary modules for the various tasks given in natural language. We develop most of the modules. Especially, for the texture generating module, we utilize a pretrained large-scale diffusion model to generate panorama images conditioned on text and visual prompts (i.e., layout, depth, and semantic map) simultaneously. Specifically, we enhance the panorama image generation quality by optimizing the training objective with a 1D representation of a panorama scene obtained from bidirectional LSTM. We demonstrate Programmable-Room's flexibility in generating and editing 3D room meshes, and prove our framework's superiority to an existing model quantitatively and qualitatively. Project page is available in https://jihyun0510.github.io/Programmable_Room_Page/.
- Abstract(参考訳): 本稿では,自然言語命令を与えられた3Dルームメッシュを対話的に生成し,編集するフレームワークであるProgrammable-Roomを提案する。
部屋の属性を正確に制御するために,部屋メッシュの可塑性3D座標の作成,テクスチャ用パノラマ画像の生成,座標とパノラマテクスチャ画像の統合による3Dメッシュの構築,家具の配置といった,より単純なステップに分割する。
統合されたフレームワークで様々な分解タスクをサポートするため、ビジュアルプログラミング(VP)を取り入れる。
VPは、大きな言語モデル(LLM)を使用して、自然言語で与えられた様々なタスクに必要なモジュールの順序リストであるPythonライクなプログラムを記述する方法である。
ほとんどのモジュールを開発しています。
特にテクスチャ生成モジュールでは,事前訓練された大規模拡散モデルを用いて,テキストと視覚的プロンプト(レイアウト,深さ,意味マップ)を同時に生成する。
具体的には、双方向LSTMから得られるパノラマシーンの1次元表現を用いて、トレーニング目標を最適化することにより、パノラマ画像生成品質を向上させる。
本稿では,3次元ルームメッシュの生成と編集におけるProgrammable-Roomの柔軟性を実証し,既存のモデルに対するフレームワークの優位性を定量的かつ定性的に証明する。
プロジェクトページはhttps://jihyun0510.github.io/Programmable_Room_Page/で公開されている。
関連論文リスト
- DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - Ctrl-Room: Controllable Text-to-3D Room Meshes Generation with Layout Constraints [35.073500525250346]
我々はCtrl-Roomを提案する。Ctrl-Roomは、デザイナースタイルのレイアウトとテキストプロンプトから高忠実なテクスチャを持つ説得力のある3Dルームを生成できる。
Ctrl-Roomは、個々の家具アイテムのリサイズや移動といった多目的なインタラクティブな編集操作を可能にする。
論文 参考訳(メタデータ) (2023-10-05T15:29:52Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - LayoutGPT: Compositional Visual Planning and Generation with Large
Language Models [98.81962282674151]
大規模言語モデル(LLM)は、テキスト条件からレイアウトを生成することで視覚的なプランナーとして機能する。
本稿では,スタイルシート言語におけるコンテキスト内視覚的デモンストレーションを構成する手法であるLayoutGPTを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:56:16Z) - DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation [105.97545053660619]
テキスト誘導型3次元形状生成手法DreamStoneを提案する。
画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
論文 参考訳(メタデータ) (2023-03-24T03:56:23Z) - Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models [21.622420436349245]
入力としてテキストプロンプトからルームスケールのテクスチャ化された3Dメッシュを生成する方法であるText2Roomを提案する。
我々は、事前訓練された2次元テキスト・画像モデルを利用して、異なるポーズから画像列を合成する。
これらの出力を一貫した3次元シーン表現に引き上げるために、単眼深度推定とテキスト条件のインペイントモデルを組み合わせる。
論文 参考訳(メタデータ) (2023-03-21T16:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。