論文の概要: Hierarchically-Structured Open-Vocabulary Indoor Scene Synthesis with Pre-trained Large Language Model
- arxiv url: http://arxiv.org/abs/2502.10675v1
- Date: Sat, 15 Feb 2025 05:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:11:38.031263
- Title: Hierarchically-Structured Open-Vocabulary Indoor Scene Synthesis with Pre-trained Large Language Model
- Title(参考訳): 事前学習大言語モデルを用いた階層的構造化オープンボキャブラリ室内シーン合成
- Authors: Weilin Sun, Xinran Li, Manyi Li, Kai Xu, Xiangxu Meng, Lei Meng,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いて階層的に構造化されたシーン記述を生成し,シーンレイアウトを計算することを提案する。
具体的には、オブジェクト間の微粒な相対位置を推測するために階層型ネットワークを訓練する。
また,オープン語彙のシーン合成とインタラクティブなシーンデザインの結果を,アプリケーションにおけるアプローチの強みを示すために提示する。
- 参考スコア(独自算出の注目度): 14.70850176122733
- License:
- Abstract: Indoor scene synthesis aims to automatically produce plausible, realistic and diverse 3D indoor scenes, especially given arbitrary user requirements. Recently, the promising generalization ability of pre-trained large language models (LLM) assist in open-vocabulary indoor scene synthesis. However, the challenge lies in converting the LLM-generated outputs into reasonable and physically feasible scene layouts. In this paper, we propose to generate hierarchically structured scene descriptions with LLM and then compute the scene layouts. Specifically, we train a hierarchy-aware network to infer the fine-grained relative positions between objects and design a divide-and-conquer optimization to solve for scene layouts. The advantages of using hierarchically structured scene representation are two-fold. First, the hierarchical structure provides a rough grounding for object arrangement, which alleviates contradictory placements with dense relations and enhances the generalization ability of the network to infer fine-grained placements. Second, it naturally supports the divide-and-conquer optimization, by first arranging the sub-scenes and then the entire scene, to more effectively solve for a feasible layout. We conduct extensive comparison experiments and ablation studies with both qualitative and quantitative evaluations to validate the effectiveness of our key designs with the hierarchically structured scene representation. Our approach can generate more reasonable scene layouts while better aligned with the user requirements and LLM descriptions. We also present open-vocabulary scene synthesis and interactive scene design results to show the strength of our approach in the applications.
- Abstract(参考訳): 室内シーン合成は、特に任意のユーザ要求に応じて、可塑性でリアルで多様な屋内シーンを自動生成することを目的としている。
近年,事前学習型大言語モデル(LLM)の有望な一般化能力は,オープン語彙屋内シーンの合成に有効である。
しかし、LCM生成した出力を合理的かつ物理的に実現可能なシーンレイアウトに変換するのが課題である。
本稿では,LLMを用いて階層的に構成されたシーン記述を生成し,シーンレイアウトを計算することを提案する。
具体的には,オブジェクト間の微粒な相対位置を推定するために階層型ネットワークを訓練し,シーンレイアウトの解法として分割・列最適化を設計する。
階層的に構造化されたシーン表現を使用することの利点は2つある。
第一に、階層構造は、オブジェクト配置の粗い基礎を提供し、これは、密接な関係で矛盾する配置を緩和し、きめ細かい配置を推測するネットワークの一般化能力を高める。
第2に、サブシーンとシーン全体をアレンジすることで、分割とコンカマーの最適化を自然にサポートし、実現可能なレイアウトをより効果的に解決する。
本研究では,階層的に構成されたシーン表現を用いたキーデザインの有効性を検証するために,定性評価と定量的評価を併用した広範囲な比較実験およびアブレーション研究を行った。
我々のアプローチは、より合理的なシーンレイアウトを生成すると同時に、ユーザー要求やLCM記述に適合する。
また,オープン語彙のシーン合成とインタラクティブなシーンデザインの結果を,アプリケーションにおけるアプローチの強みを示すために提示する。
関連論文リスト
- The Scene Language: Representing Scenes with Programs, Words, and Embeddings [23.707974056165042]
本稿では,視覚シーンの構造,意味,アイデンティティを簡潔かつ正確に記述した視覚シーン表現であるシーン言語を紹介する。
シーン内のエンティティの階層構造と関係構造を指定するプログラム、各エンティティのセマンティッククラスを要約する自然言語の単語、各エンティティの視覚的アイデンティティをキャプチャする埋め込みである。
論文 参考訳(メタデータ) (2024-10-22T07:40:20Z) - Forest2Seq: Revitalizing Order Prior for Sequential Indoor Scene Synthesis [109.50718968215658]
本研究では,屋内シーンの合成を順序認識型シーケンシャル学習問題として定式化するフレームワークであるフォレスト2Seqを提案する。
クラスタリングに基づくアルゴリズムと幅優先のアルゴリズムを用いることで、フォレスト2セックは意味のある順序付けを導き、トランスフォーマーを使用してリアルな3Dシーンを自動回帰的に生成する。
論文 参考訳(メタデータ) (2024-07-07T14:32:53Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Semantic Palette: Guiding Scene Generation with Class Proportions [34.746963256847145]
本稿では,シーン生成プロセスの指針として,クラス比率を効果的に許容する,新しいアーキテクチャ設計と学習目標を備えた条件付きフレームワークを提案する。
セマンティックコントロールにより、実際の分布に近いレイアウトを生成でき、シーン生成プロセス全体の拡張に役立つ。
実際のレイアウトとイメージのペアでトレーニングされたセグメンテーションセグメントは、実際のペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-06-03T07:04:00Z) - End-to-End Optimization of Scene Layout [56.80294778746068]
シーングラフに条件付きシーンレイアウト合成のためのエンド・ツー・エンド変分生成モデルを提案する。
シーングラフを抽象的だが汎用的な表現として使用し、多様なシーンレイアウトの合成を誘導する。
論文 参考訳(メタデータ) (2020-07-23T01:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。