論文の概要: Decorum: A Language-Based Approach For Style-Conditioned Synthesis of Indoor 3D Scenes
- arxiv url: http://arxiv.org/abs/2503.18155v1
- Date: Sun, 23 Mar 2025 17:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:25.342279
- Title: Decorum: A Language-Based Approach For Style-Conditioned Synthesis of Indoor 3D Scenes
- Title(参考訳): Decorum: 室内3Dシーンのスタイル決定型合成のための言語ベースのアプローチ
- Authors: Kelly O. Marshall, Omid Poursaeed, Sergiu Oprea, Amit Kumar, Anushrut Jignasu, Chinmay Hegde, Yilei Li, Rakesh Ranjan,
- Abstract要約: 3次元屋内シーン生成は,デジタルおよび実環境の設計において重要な課題である。
このタスクの既存の方法は、これらの属性に対して非常に限定的な制御を示す。
提案手法であるDecorumにより,自然言語によるシーン生成プロセスの制御が可能となる。
- 参考スコア(独自算出の注目度): 18.232310061758298
- License:
- Abstract: 3D indoor scene generation is an important problem for the design of digital and real-world environments. To automate this process, a scene generation model should be able to not only generate plausible scene layouts, but also take into consideration visual features and style preferences. Existing methods for this task exhibit very limited control over these attributes, only allowing text inputs in the form of simple object-level descriptions or pairwise spatial relationships. Our proposed method Decorum enables users to control the scene generation process with natural language by adopting language-based representations at each stage. This enables us to harness recent advancements in Large Language Models (LLMs) to model language-to-language mappings. In addition, we show that using a text-based representation allows us to select furniture for our scenes using a novel object retrieval method based on multimodal LLMs. Evaluations on the benchmark 3D-FRONT dataset show that our methods achieve improvements over existing work in text-conditioned scene synthesis and object retrieval.
- Abstract(参考訳): 3次元屋内シーン生成は,デジタルおよび実環境の設計において重要な課題である。
このプロセスを自動化するために、シーン生成モデルは、可愛らしいシーンレイアウトを生成するだけでなく、視覚的特徴やスタイルの好みも考慮する必要がある。
このタスクの既存の方法は、これらの属性に対して非常に限定的な制御を示し、単純なオブジェクトレベルの記述やペアの空間的関係の形式でテキスト入力を許可するのみである。
提案手法であるDecorumにより,各段階での言語に基づく表現を採用することで,自然言語によるシーン生成プロセスの制御が可能となった。
これにより、言語間マッピングをモデル化するために、LLM(Large Language Models)の最近の進歩を利用することができます。
さらに,テキストベース表現を用いることで,マルチモーダルLLMに基づく新しいオブジェクト検索手法を用いて,シーンの家具を選択することができることを示す。
ベンチマーク3D-FRONTデータセットによる評価から,テキスト条件付きシーン合成とオブジェクト検索における既存の作業よりも優れた手法が得られた。
関連論文リスト
- ViGiL3D: A Linguistically Diverse Dataset for 3D Visual Grounding [9.289977174410824]
3Dビジュアルグラウンドティングは、自然言語テキストによって参照される3Dシーンでエンティティをローカライズする。
多様な言語パターンに対して視覚的接地手法を評価するための診断データセットである3D (ViGiL3D) の視覚的接地について紹介する。
論文 参考訳(メタデータ) (2025-01-02T17:20:41Z) - The Scene Language: Representing Scenes with Programs, Words, and Embeddings [23.707974056165042]
本稿では,視覚シーンの構造,意味,アイデンティティを簡潔かつ正確に記述した視覚シーン表現であるシーン言語を紹介する。
シーン内のエンティティの階層構造と関係構造を指定するプログラム、各エンティティのセマンティッククラスを要約する自然言語の単語、各エンティティの視覚的アイデンティティをキャプチャする埋め込みである。
論文 参考訳(メタデータ) (2024-10-22T07:40:20Z) - SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model [7.707324214953882]
SceneScriptは、構造化言語コマンドのシーケンスとして、フルシーンモデルを生成するメソッドである。
本手法は,符号化された視覚データから直接構造化言語コマンドのセットを推論する。
提案手法は,3次元オブジェクト検出において,構造的レイアウト推定における最先端の成果と競合する結果を与える。
論文 参考訳(メタデータ) (2024-03-19T18:01:29Z) - Open-Universe Indoor Scene Generation using LLM Program Synthesis and Uncurated Object Databases [13.126239167800652]
テキストのプロンプトに応じて屋内シーンを生成するシステムを提案する。
プロンプトはシーン記述の固定語彙に限らない。
生成されたシーンのオブジェクトは、固定されたオブジェクトカテゴリに制限されない。
論文 参考訳(メタデータ) (2024-02-05T01:59:31Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Set-the-Scene: Global-Local Training for Generating Controllable NeRF
Scenes [68.14127205949073]
オブジェクトプロキシを用いて3Dシーンを合成するための新しいGlobalLocalトレーニングフレームワークを提案する。
プロキシを使うことで、個々の独立オブジェクトの配置を調整するなど、さまざまな編集オプションが実現可能であることを示す。
その結果,Set-the-Sceneはシーンの合成と操作に強力なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-23T17:17:29Z) - Grounding Language Models to Images for Multimodal Inputs and Outputs [89.30027812161686]
本稿では,事前学習したテキストのみの言語モデルを視覚領域に最適化する効率的な手法を提案する。
任意にインターリーブされた画像とテキストデータを処理し、検索した画像とインターリーブされたテキストを生成する。
論文 参考訳(メタデータ) (2023-01-31T18:33:44Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Zero-Shot Text-Guided Object Generation with Dream Fields [111.06026544180398]
ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。
提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。
実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
論文 参考訳(メタデータ) (2021-12-02T17:53:55Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。