論文の概要: LLplace: The 3D Indoor Scene Layout Generation and Editing via Large Language Model
- arxiv url: http://arxiv.org/abs/2406.03866v1
- Date: Thu, 6 Jun 2024 08:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 15:39:42.190017
- Title: LLplace: The 3D Indoor Scene Layout Generation and Editing via Large Language Model
- Title(参考訳): LLplace: 大規模言語モデルによる3D屋内シーンレイアウト生成と編集
- Authors: Yixuan Yang, Junru Lu, Zixiang Zhao, Zhen Luo, James J. Q. Yu, Victor Sanchez, Feng Zheng,
- Abstract要約: LLplace は軽量な微調整のオープンソース LLM Llama3 に基づく新しい3D屋内シーンレイアウトデザイナである。
LLplaceは、空間的関係の先行とコンテキスト内例の必要性を回避し、効率的で信頼性の高い部屋レイアウト生成を可能にする。
提案手法は,高品質な3D設計ソリューションを実現する上で,LLplaceがインタラクティブに3D屋内レイアウトを効果的に生成・編集できることを示す。
- 参考スコア(独自算出の注目度): 58.24851949945434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing 3D indoor layouts is a crucial task with significant applications in virtual reality, interior design, and automated space planning. Existing methods for 3D layout design either rely on diffusion models, which utilize spatial relationship priors, or heavily leverage the inferential capabilities of proprietary Large Language Models (LLMs), which require extensive prompt engineering and in-context exemplars via black-box trials. These methods often face limitations in generalization and dynamic scene editing. In this paper, we introduce LLplace, a novel 3D indoor scene layout designer based on lightweight fine-tuned open-source LLM Llama3. LLplace circumvents the need for spatial relationship priors and in-context exemplars, enabling efficient and credible room layout generation based solely on user inputs specifying the room type and desired objects. We curated a new dialogue dataset based on the 3D-Front dataset, expanding the original data volume and incorporating dialogue data for adding and removing objects. This dataset can enhance the LLM's spatial understanding. Furthermore, through dialogue, LLplace activates the LLM's capability to understand 3D layouts and perform dynamic scene editing, enabling the addition and removal of objects. Our approach demonstrates that LLplace can effectively generate and edit 3D indoor layouts interactively and outperform existing methods in delivering high-quality 3D design solutions. Code and dataset will be released.
- Abstract(参考訳): 3D屋内レイアウトの設計は、仮想現実、インテリアデザイン、自動空間計画において重要な応用において重要な課題である。
既存の3Dレイアウト設計の手法は、空間的関係の先行性を利用する拡散モデルに依存するか、あるいは、ブラックボックスの試行を通じて広範囲のプロプライエタリ言語モデル(LLM)の推論機能を利用するかのいずれかである。
これらの手法は、一般化と動的なシーン編集の限界に直面することが多い。
本稿では,軽量な微調整オープンソースのLLM Llama3をベースとした,新しい3次元屋内シーンレイアウトデザイナであるLLplaceを紹介する。
LLplaceは、空間的関係の先行とコンテキスト内例の必要性を回避し、部屋タイプと所望のオブジェクトを指定するユーザ入力のみに基づいて、効率的で信頼性の高い部屋レイアウト生成を可能にする。
我々は3D-Frontデータセットに基づいた対話データセットをキュレートし、元のデータ量を拡大し、オブジェクトの追加と削除のための対話データを組み込んだ。
このデータセットはLLMの空間的理解を高めることができる。
さらに、対話を通じてLLplaceはLLMの3Dレイアウトを理解し、動的なシーン編集を実行し、オブジェクトの追加と削除を可能にする。
提案手法は,高品質な3D設計ソリューションを実現する上で,LLplaceがインタラクティブに3D屋内レイアウトを効果的に生成・編集できることを示す。
コードとデータセットがリリースされる。
関連論文リスト
- SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models [45.28780381341979]
Spartun3Dという,様々な位置空間推論タスクを組み込んだスケーラブルな位置位置3Dデータセットを導入する。
また,Spartun3D-LLMを提案する。これは既存の3次元LLM上に構築されているが,新しい位置空間アライメントモジュールと統合されている。
論文 参考訳(メタデータ) (2024-10-04T19:22:20Z) - EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEdit-Roomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文 参考訳(メタデータ) (2024-10-03T17:42:24Z) - DeBaRA: Denoising-Based 3D Room Arrangement Generation [22.96293773013579]
有界環境における正確で制御可能で柔軟なアレンジメント生成に適したスコアベースモデルであるDeBaRAを紹介する。
本研究では,オブジェクトの空間特性に着目して,シーン合成や完了,再配置など,複数のダウンストリームアプリケーションを実行するために,単一トレーニングされたDeBaRAモデルをテスト時に活用できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T23:18:25Z) - LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。
空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning [24.162598399141785]
Scene-LLMは3次元視覚言語モデルであり、インタラクティブな3次元屋内環境におけるエンボディエージェントの能力を高める。
Scene-LLMを用いた実験は, 密接なキャプション, 質問応答, 対話型プランニングにおいて, 強力な機能を示す。
論文 参考訳(メタデータ) (2024-03-18T01:18:48Z) - Ctrl-Room: Controllable Text-to-3D Room Meshes Generation with Layout Constraints [35.073500525250346]
我々はCtrl-Roomを提案する。Ctrl-Roomは、デザイナースタイルのレイアウトとテキストプロンプトから高忠実なテクスチャを持つ説得力のある3Dルームを生成できる。
Ctrl-Roomは、個々の家具アイテムのリサイズや移動といった多目的なインタラクティブな編集操作を可能にする。
論文 参考訳(メタデータ) (2023-10-05T15:29:52Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z) - Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback [20.151147653552155]
大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。
本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。
また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-05-25T07:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。