論文の概要: Open-Universe Indoor Scene Generation using LLM Program Synthesis and Uncurated Object Databases
- arxiv url: http://arxiv.org/abs/2403.09675v1
- Date: Mon, 5 Feb 2024 01:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 08:06:28.776710
- Title: Open-Universe Indoor Scene Generation using LLM Program Synthesis and Uncurated Object Databases
- Title(参考訳): LLMプログラム合成と不正確なオブジェクトデータベースを用いたオープン・ユニバース室内シーン生成
- Authors: Rio Aguina-Kang, Maxim Gumin, Do Heon Han, Stewart Morris, Seung Jean Yoo, Aditya Ganeshan, R. Kenny Jones, Qiuhong Anna Wei, Kailiang Fu, Daniel Ritchie,
- Abstract要約: テキストのプロンプトに応じて屋内シーンを生成するシステムを提案する。
プロンプトはシーン記述の固定語彙に限らない。
生成されたシーンのオブジェクトは、固定されたオブジェクトカテゴリに制限されない。
- 参考スコア(独自算出の注目度): 13.126239167800652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a system for generating indoor scenes in response to text prompts. The prompts are not limited to a fixed vocabulary of scene descriptions, and the objects in generated scenes are not restricted to a fixed set of object categories -- we call this setting indoor scene generation. Unlike most prior work on indoor scene generation, our system does not require a large training dataset of existing 3D scenes. Instead, it leverages the world knowledge encoded in pre-trained large language models (LLMs) to synthesize programs in a domain-specific layout language that describe objects and spatial relations between them. Executing such a program produces a specification of a constraint satisfaction problem, which the system solves using a gradient-based optimization scheme to produce object positions and orientations. To produce object geometry, the system retrieves 3D meshes from a database. Unlike prior work which uses databases of category-annotated, mutually-aligned meshes, we develop a pipeline using vision-language models (VLMs) to retrieve meshes from massive databases of un-annotated, inconsistently-aligned meshes. Experimental evaluations show that our system outperforms generative models trained on 3D data for traditional, closed-universe scene generation tasks; it also outperforms a recent LLM-based layout generation method on open-universe scene generation.
- Abstract(参考訳): テキストのプロンプトに応じて屋内シーンを生成するシステムを提案する。
プロンプトはシーン記述の固定語彙に制限されず、生成されたシーン内のオブジェクトは固定されたオブジェクトカテゴリに制限されない。
屋内シーン生成に関するこれまでのほとんどの研究とは異なり、既存の3Dシーンの大規模なトレーニングデータセットは不要である。
代わりに、事前訓練された大規模言語モデル(LLM)に符号化された世界知識を活用して、オブジェクトとそれらの間の空間関係を記述するドメイン固有のレイアウト言語でプログラムを合成する。
このようなプログラムを実行すると制約満足度問題の仕様が作成され、勾配に基づく最適化スキームを用いてオブジェクトの位置と向きを生成する。
オブジェクトの幾何学を生成するために、システムはデータベースから3Dメッシュを検索する。
カテゴリアノテートされた相互整合メッシュのデータベースを使用する以前の作業とは異なり、視覚言語モデル(VLM)を使用して、非アノテートで一貫性のないメッシュの巨大なデータベースからメッシュを取得するパイプラインを開発する。
実験により,本システムは従来の閉片側シーン生成タスクにおいて,3次元データに基づいて訓練された生成モデルよりも優れており,また,開放片側シーン生成における最近のLLMに基づくレイアウト生成手法よりも優れていた。
関連論文リスト
- ROOT: VLM based System for Indoor Scene Understanding and Beyond [83.71252153660078]
ROOTは、室内シーンの分析を強化するために設計されたVLMベースのシステムである。
rootnameは、屋内シーンの理解を促進し、3Dシーン生成や組み込みAIなど、さまざまな下流アプリケーションに有効であることを証明します。
論文 参考訳(メタデータ) (2024-11-24T04:51:24Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - LLplace: The 3D Indoor Scene Layout Generation and Editing via Large Language Model [58.24851949945434]
LLplace は軽量な微調整のオープンソース LLM Llama3 に基づく新しい3D屋内シーンレイアウトデザイナである。
LLplaceは、空間的関係の先行とコンテキスト内例の必要性を回避し、効率的で信頼性の高い部屋レイアウト生成を可能にする。
提案手法は,高品質な3D設計ソリューションを実現する上で,LLplaceがインタラクティブに3D屋内レイアウトを効果的に生成・編集できることを示す。
論文 参考訳(メタデータ) (2024-06-06T08:53:01Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model [7.707324214953882]
SceneScriptは、構造化言語コマンドのシーケンスとして、フルシーンモデルを生成するメソッドである。
本手法は,符号化された視覚データから直接構造化言語コマンドのセットを推論する。
提案手法は,3次元オブジェクト検出において,構造的レイアウト推定における最先端の成果と競合する結果を与える。
論文 参考訳(メタデータ) (2024-03-19T18:01:29Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language
Model as an Agent [23.134180979449823]
3Dビジュアルグラウンドティングは、家庭用ロボットにとって重要なスキルであり、その環境に基づいて、オブジェクトをナビゲートし、操作し、質問に答えることを可能にする。
LLM-Grounderは,LLM(Large Language Model)をベースとした新しいゼロショット・オープンボキャブラリである。
以上の結果から,LLMは,特に複雑な言語クエリにおいて,グラウンド化能力を大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-21T17:59:45Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。