論文の概要: InstructLayout: Instruction-Driven 2D and 3D Layout Synthesis with Semantic Graph Prior
- arxiv url: http://arxiv.org/abs/2407.07580v2
- Date: Thu, 11 Jul 2024 03:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 11:33:49.098611
- Title: InstructLayout: Instruction-Driven 2D and 3D Layout Synthesis with Semantic Graph Prior
- Title(参考訳): InstructLayout: セマンティックグラフを用いたインストラクション駆動2Dおよび3Dレイアウト合成
- Authors: Chenguo Lin, Yuchen Lin, Panwang Pan, Xuanyang Zhang, Yadong Mu,
- Abstract要約: 自然言語命令を補完することは、2Dおよび3Dレイアウト合成システムにとって魅力的な特性である。
既存の手法は、オブジェクトの関節分布を暗黙的にモデル化し、オブジェクトの関係を表現し、生成物の可制御性合成システムを妨げる。
Instructは、セマンティックグラフとレイアウトデコーダを統合した、新しい生成フレームワークである。
- 参考スコア(独自算出の注目度): 23.536285325566013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehending natural language instructions is a charming property for both 2D and 3D layout synthesis systems. Existing methods implicitly model object joint distributions and express object relations, hindering generation's controllability. We introduce InstructLayout, a novel generative framework that integrates a semantic graph prior and a layout decoder to improve controllability and fidelity for 2D and 3D layout synthesis. The proposed semantic graph prior learns layout appearances and object distributions simultaneously, demonstrating versatility across various downstream tasks in a zero-shot manner. To facilitate the benchmarking for text-driven 2D and 3D scene synthesis, we respectively curate two high-quality datasets of layout-instruction pairs from public Internet resources with large language and multimodal models. Extensive experimental results reveal that the proposed method outperforms existing state-of-the-art approaches by a large margin in both 2D and 3D layout synthesis tasks. Thorough ablation studies confirm the efficacy of crucial design components.
- Abstract(参考訳): 自然言語命令を補完することは、2Dと3Dのレイアウト合成システムにとって魅力的な特性である。
既存の手法は、オブジェクトの関節分布を暗黙的にモデル化し、オブジェクトの関係を表現し、生成者の制御可能性を妨げる。
InstructLayoutは、セマンティックグラフとレイアウトデコーダを統合し、2次元および3次元レイアウト合成の制御性と忠実性を改善する新しい生成フレームワークである。
提案したセマンティックグラフは,レイアウトの出現とオブジェクトの分布を同時に学習し,各下流タスクの汎用性をゼロショットで示す。
テキスト駆動2Dと3Dシーン合成のベンチマークを容易にするため,我々は,大規模言語とマルチモーダルモデルを用いて,公開インターネットリソースから2つの高品質なレイアウト命令ペアのデータセットをキュレートした。
実験結果から,提案手法は2次元および3次元のレイアウト合成作業において,既存の最先端手法よりも優れた性能を示した。
徹底的なアブレーション研究により、重要な設計要素の有効性が確認された。
関連論文リスト
- 3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-07-13T09:39:11Z) - VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing [22.39760469467524]
本研究では,2次元拡散モデルと3次元拡散モデルの間のモーダルギャップに対処する分散テクスチャ合成を提案する。
我々は、競合する領域との詳細な関係を改善するために、塗装モジュールを提示する。
論文 参考訳(メタデータ) (2024-07-05T12:11:33Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap
Between Text-to-2D and Text-to-3D Generation [64.12848271290119]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文 参考訳(メタデータ) (2023-11-30T07:23:00Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - UniT3D: A Unified Transformer for 3D Dense Captioning and Visual
Grounding [41.15622591021133]
3Dの密接なキャプションと視覚的接地を行うには、基礎となるマルチモーダル関係の共通かつ共有的な理解が必要である。
我々は3次元視覚的接地と密接なキャプションを共同で解くためのトランスフォーマーベースアーキテクチャUniT3Dを提案する。
論文 参考訳(メタデータ) (2022-12-01T19:45:09Z) - Translational Symmetry-Aware Facade Parsing for 3D Building
Reconstruction [11.263458202880038]
本稿では,深部ニューラルネットワーク改善のための新しい翻訳対称性に基づくアプローチを提案する。
本研究では,単一段ネットワークにおけるアンカーフリー検出を融合させる新しい手法を提案する。
我々はBlenderのような市販のレンダリングエンジンを使用して、手続きモデルを用いて現実的な高品質な3Dモデルを再構築する。
論文 参考訳(メタデータ) (2021-06-02T03:10:51Z) - Towards Realistic 3D Embedding via View Alignment [53.89445873577063]
本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動的に埋め込み,新たな画像を構成する,革新的なビューアライメントGAN(VA-GAN)を提案する。
VA-GANはテクスチャジェネレータとディファレンシャルディスクリミネーターで構成され、相互接続され、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2020-07-14T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。