論文の概要: Text Semantics to Flexible Design: A Residential Layout Generation Method Based on Stable Diffusion Model
- arxiv url: http://arxiv.org/abs/2501.09279v1
- Date: Thu, 16 Jan 2025 03:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:35.101136
- Title: Text Semantics to Flexible Design: A Residential Layout Generation Method Based on Stable Diffusion Model
- Title(参考訳): テキストセマンティックスからフレキシブルデザインへ:安定拡散モデルに基づく住宅レイアウト生成法
- Authors: Zijin Qiu, Jiepeng Liu, Yi Xia, Hongtuo Qi, Pengkun Liu,
- Abstract要約: フレキシブルな住宅レイアウトを生成するための安定拡散モデルに基づくクロスモーダル設計手法を提案する。
この方法は、学習目的のための複数の入力型を提供し、ユーザーは境界とレイアウトの両方を指定できる。
また,知識グラフ内に設計の専門知識をカプセル化し,それを自然言語に変換するスキームを提案する。
- 参考スコア(独自算出の注目度): 0.6990493129893112
- License:
- Abstract: Flexibility in the AI-based residential layout design remains a significant challenge, as traditional methods like rule-based heuristics and graph-based generation often lack flexibility and require substantial design knowledge from users. To address these limitations, we propose a cross-modal design approach based on the Stable Diffusion model for generating flexible residential layouts. The method offers multiple input types for learning objectives, allowing users to specify both boundaries and layouts. It incorporates natural language as design constraints and introduces ControlNet to enable stable layout generation through two distinct pathways. We also present a scheme that encapsulates design expertise within a knowledge graph and translates it into natural language, providing an interpretable representation of design knowledge. This comprehensibility and diversity of input options enable professionals and non-professionals to directly express design requirements, enhancing flexibility and controllability. Finally, experiments verify the flexibility of the proposed methods under multimodal constraints better than state-of-the-art models, even when specific semantic information about room areas or connections is incomplete.
- Abstract(参考訳): AIベースの住宅レイアウト設計の柔軟性は依然として大きな課題であり、ルールベースのヒューリスティックやグラフベースの生成といった従来の手法は柔軟性に欠けており、ユーザからかなりの設計知識を必要としている。
これらの制約に対処するため, 安定拡散モデルに基づくクロスモーダル設計手法を提案し, フレキシブルな住宅レイアウトを生成する。
この方法は、学習目的のための複数の入力型を提供し、ユーザーは境界とレイアウトの両方を指定できる。
自然言語を設計制約として組み込んでおり、2つの異なる経路を通じて安定したレイアウト生成を可能にするControlNetを導入している。
また、知識グラフ内に設計知識をカプセル化し、それを自然言語に変換し、設計知識の解釈可能な表現を提供するスキームを提案する。
入力オプションの理解性と多様性により、専門家や非専門家は、設計要件を直接表現し、柔軟性と制御性を向上させることができる。
最後に,室内領域や接続に関する特定の意味情報が不完全である場合でも,マルチモーダル制約下での手法の柔軟性を検証する。
関連論文リスト
- GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - ChatHouseDiffusion: Prompt-Guided Generation and Editing of Floor Plans [10.82348603357201]
本稿では,大規模言語モデル(LLM)を利用して自然言語入力を解釈するChatHouseDiffusionを提案する。
また、トポロジカルな関係をエンコードするためにグラマーを使用し、拡散モデルを使用してフロアプランを柔軟に生成し編集する。
既存のモデルと比較すると、ChatHouseDiffusionはより高いIoU(Intersection over Union)スコアを達成し、完了を必要とせずに正確な局所的な調整を可能にする。
論文 参考訳(メタデータ) (2024-10-15T02:41:46Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - CoLay: Controllable Layout Generation through Multi-conditional Latent Diffusion [21.958752304572553]
既存のモデルは、実践における採用を制限する2つの大きな課題に直面します。
既存のモデルのほとんどはラベルと座標の生成に重点を置いており、実際のレイアウトには様々なスタイルの特性が含まれている。
本稿では,複数の条件タイプを統合し,多様なスタイル特性を持つ複雑なレイアウトを生成する新しいフレームワークであるCoLayを提案する。
論文 参考訳(メタデータ) (2024-05-18T17:30:48Z) - Towards Aligned Layout Generation via Diffusion Model with Aesthetic Constraints [53.66698106829144]
広い範囲のレイアウト生成タスクを処理する統一モデルを提案する。
このモデルは連続拡散モデルに基づいている。
実験結果から,LACEは高品質なレイアウトを生成することがわかった。
論文 参考訳(メタデータ) (2024-02-07T11:12:41Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - Controlled Text Generation with Natural Language Instructions [74.88938055638636]
InstructCTGは、異なる制約を含む制御されたテキスト生成フレームワークである。
まず、既製のNLPツールと単純な動詞の組み合わせにより、自然文の基本的制約を抽出する。
制約の自然言語記述といくつかの実演を予測することにより、様々な種類の制約を組み込むために、事前訓練された言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-04-27T15:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。