論文の概要: AnyHome: Open-Vocabulary Generation of Structured and Textured 3D Homes
- arxiv url: http://arxiv.org/abs/2312.06644v1
- Date: Mon, 11 Dec 2023 18:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:22:44.289286
- Title: AnyHome: Open-Vocabulary Generation of Structured and Textured 3D Homes
- Title(参考訳): AnyHome: 構造とテクスチャを備えた3Dホームのオープン語彙生成
- Authors: Zehao Wen, Zichen Liu, Srinath Sridhar, Rao Fu
- Abstract要約: 我々はAnyHomeを紹介した。AnyHomeは、オープン語彙記述を家庭規模で3D屋内シーンに変換するフレームワークである。
認識理論にインスパイアされたAnyHomeは、アモーダルな構造表現を用いて、3次元空間的手がかりをテキストの物語から捉えている。
我々は、AnyHomeが、その詳細な空間構造とテクスチャを特徴とする、多様な屋内シーンを確実に生成できることを実証した。
- 参考スコア(独自算出の注目度): 11.451051677323438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AnyHome, a framework that translates open-vocabulary
descriptions, ranging from simple labels to elaborate paragraphs, into
well-structured and textured 3D indoor scenes at a house-scale. Inspired by
cognition theories, AnyHome employs an amodal structured representation to
capture 3D spatial cues from textual narratives and then uses egocentric
inpainting to enrich these scenes. To this end, we begin by using specially
designed template prompts for Large Language Models (LLMs), which enable
precise control over the textual input. We then utilize intermediate
representations to maintain the spatial structure's consistency, ensuring that
the 3D scenes align closely with the textual description. Then, we apply a
Score Distillation Sampling process to refine the placement of objects. Lastly,
an egocentric inpainting process is incorporated to enhance the realism and
appearance of the scenes. AnyHome stands out due to its hierarchical structured
representation combined with the versatility of open-vocabulary text
interpretation. This allows for extensive customization of indoor scenes at
various levels of granularity. We demonstrate that AnyHome can reliably
generate a range of diverse indoor scenes, characterized by their detailed
spatial structures and textures, all corresponding to the free-form textual
inputs.
- Abstract(参考訳): 簡単なラベルから精巧な段落まで、オープンな語彙記述をハウススケールでよく構造化された3D屋内シーンに翻訳するフレームワークであるAnyHomeを紹介する。
認知理論にインスパイアされたanyhomeは、テキストの物語から3d空間的手がかりを捉え、エゴセントリックなインペインティングを使ってこれらのシーンを豊かにする。
この目的のために、我々はLarge Language Models (LLMs) のテンプレートプロンプトを特別に設計し、テキスト入力の正確な制御を可能にすることから始める。
次に、中間表現を用いて空間構造の一貫性を維持し、3dシーンがテキスト記述と密接に一致するようにする。
次に, 点数蒸留サンプリング法を適用し, 被写体の配置を精錬する。
最後に、エゴセントリックなインペインティングプロセスが組み込まれ、シーンのリアリズムと外観が強化される。
AnyHomeは、その階層的な構造化された表現とオープン語彙のテキスト解釈の汎用性によって際立っている。
これにより、様々なレベルの粒度の屋内シーンを広範囲にカスタマイズすることができる。
自由形式のテキスト入力に対応する詳細な空間構造とテクスチャを特徴とする,多様な室内シーンを,anyhomeが確実に生成できることを実証する。
関連論文リスト
- Style-Consistent 3D Indoor Scene Synthesis with Decoupled Objects [84.45345829270626]
制御可能な3D屋内シーン合成は、技術進歩の最前線にある。
シーンスタイリングの現在の手法は、シーン全体にスタイルを適用することに限定されている。
室内3Dシーンを合成するためのユニークなパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-24T03:10:36Z) - DreamSpace: Dreaming Your Room Space with Text-Driven Panoramic Texture
Propagation [31.353409149640605]
本稿では没入型VR体験のための3次元テクスチャ生成のための新しいフレームワークを提案する。
生き残るために、我々は秘密の領域でテクスチャの手がかりを分け、現実世界の環境でネットワークテクスチャを学ぶ。
論文 参考訳(メタデータ) (2023-10-19T19:29:23Z) - Text2Scene: Text-driven Indoor Scene Stylization with Part-aware Details [12.660352353074012]
複数のオブジェクトからなる仮想シーンの現実的なテクスチャを自動生成するText2Sceneを提案する。
我々のパイプラインは、室内のラベル付き3Dジオメトリに詳細なテクスチャを追加し、生成した色が、しばしば類似の材料から構成される階層構造や意味的な部分を尊重するようにします。
論文 参考訳(メタデータ) (2023-08-31T17:37:23Z) - Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract
Scene Descriptions [0.19116784879310023]
本稿では,短いフレーズで記述した3Dシーンのためのスタイリングされたアセットを生成するシステムを提案する。
限られたデータで訓練された伝統的な方法が、3Dアーティストにとってより創造的な自由ではないように、オープンワールドの概念は堅牢である。
論文 参考訳(メタデータ) (2023-06-09T19:24:39Z) - RoomDreamer: Text-Driven 3D Indoor Scene Synthesis with Coherent
Geometry and Texture [80.0643976406225]
本稿では、強力な自然言語を利用して異なるスタイルの部屋を合成する「RoomDreamer」を提案する。
本研究は,入力シーン構造に整合した形状とテクスチャを同時に合成することの課題に対処する。
提案手法を検証するため,スマートフォンでスキャンした屋内シーンを大規模な実験に利用した。
論文 参考訳(メタデータ) (2023-05-18T22:57:57Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - Compositional 3D Scene Generation using Locally Conditioned Diffusion [49.5784841881488]
合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。
本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
論文 参考訳(メタデータ) (2023-03-21T22:37:16Z) - DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene
Context Graph and Relation-based Optimization [66.25948693095604]
本研究では,パノラマ画像から各オブジェクトの3次元空間配置と形状,ポーズ,位置,意味的カテゴリを復元するパノラマ3次元シーン理解手法を提案する。
実験により, この手法は, パノラマシーン理解において, 幾何学的精度とオブジェクト配置の両方の観点から, 既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-24T13:55:29Z) - Intelligent Home 3D: Automatic 3D-House Design from Linguistic
Descriptions Only [55.3363844662966]
本稿では,言語条件付き視覚コンテンツ生成問題として,フロアプラン生成と内部テクスチャ合成タスクに分割して定式化する。
モデルをトレーニングし,評価するために,最初のText-to-3D House Modelデータセットを構築した。
論文 参考訳(メタデータ) (2020-03-01T04:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。