論文の概要: HouseTune: Two-Stage Floorplan Generation with LLM Assistance
- arxiv url: http://arxiv.org/abs/2411.12279v4
- Date: Mon, 10 Mar 2025 11:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:41:05.135224
- Title: HouseTune: Two-Stage Floorplan Generation with LLM Assistance
- Title(参考訳): HouseTune: LLMアシストによる2段階フロアプラン生成
- Authors: Ziyang Zong, Guanying Chen, Zhaohuan Zhan, Fengcheng Yu, Guang Tan,
- Abstract要約: 本稿では,大規模言語モデルの推論能力と拡散モデルの生成能力を組み合わせた2段階のテキスト・ツー・フロアプラン・フレームワークを提案する。
実験結果から,本手法は全指標の最先端性能を実現し,実用的ホームデザインアプリケーションにおける有効性を検証した。
- 参考スコア(独自算出の注目度): 10.558141230827847
- License:
- Abstract: This paper proposes a two-stage text-to-floorplan generation framework that combines the reasoning capability of Large Language Models (LLMs) with the generative power of diffusion models. In the first stage, we leverage a Chain-of-Thought (CoT) prompting strategy to guide an LLM in generating an initial layout (Layout-Init) from natural language descriptions, which ensures a user-friendly and intuitive design process. However, Layout-Init may lack precise geometric alignment and fine-grained structural details. To address this, the second stage employs a conditional diffusion model to refine Layout-Init into a final floorplan (Layout-Final) that better adheres to physical constraints and user requirements. Unlike prior methods, our approach effectively reduces the difficulty of floorplan generation learning without the need for extensive domain-specific training data. Experimental results demonstrate that our approach achieves state-of-the-art performance across all metrics, which validates its effectiveness in practical home design applications.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の推論能力と拡散モデルの生成能力を組み合わせた2段階のテキスト・ツー・フロアプラン生成フレームワークを提案する。
第1段階では,自然言語記述から初期レイアウト(レイアウトインジット)を生成する上で,LCMを誘導する戦略であるChain-of-Thought(CoT)を活用し,ユーザフレンドリで直感的な設計プロセスを実現する。
しかし、レイアウト・イニットは正確な幾何学的アライメントと微細な構造的詳細を欠いている可能性がある。
これを解決するために第2段階では、条件付き拡散モデルを使用して、Layout-Initを物理的な制約とユーザ要求によりよく準拠する最終的なフロアプラン(Layout-Final)に洗練する。
従来の手法とは異なり,本手法は広範囲なドメイン固有の学習データを必要としないフロアプラン生成学習の難しさを効果的に軽減する。
実験結果から,本手法は全指標の最先端性能を実現し,実用的ホームデザインアプリケーションにおける有効性を検証した。
関連論文リスト
- Smaller But Better: Unifying Layout Generation with Smaller Large Language Models [33.18391143075568]
LGGPT(LGGPT)は、LLMベースの統一レイアウト生成用に設計されたモデルである。
ALIとULRは、過剰なトークンを強制する簡潔な構造を持っている。
本稿では,LGGPTが既存手法に比べて優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-02-19T10:06:42Z) - Towards a Unified Paradigm: Integrating Recommendation Systems as a New Language in Large Models [33.02146794292383]
大規模モデルにおける新しい言語としてのレコメンデーションシステム(Integrating Recommendation Systems as a New Language in Large Models)について紹介する。
RSLLMは、従来のレコメンデーションモデルからのIDベースのアイテム埋め込みとテキストアイテムの特徴を組み合わせた独自のプロンプト方式を使用している。
ユーザのシーケンシャルな振る舞いを別の言語として扱い、プロジェクタを使用してID埋め込みとLLMの入力空間を整列する。
論文 参考訳(メタデータ) (2024-12-22T09:08:46Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - ChatHouseDiffusion: Prompt-Guided Generation and Editing of Floor Plans [10.82348603357201]
本稿では,大規模言語モデル(LLM)を利用して自然言語入力を解釈するChatHouseDiffusionを提案する。
また、トポロジカルな関係をエンコードするためにグラマーを使用し、拡散モデルを使用してフロアプランを柔軟に生成し編集する。
既存のモデルと比較すると、ChatHouseDiffusionはより高いIoU(Intersection over Union)スコアを達成し、完了を必要とせずに正確な局所的な調整を可能にする。
論文 参考訳(メタデータ) (2024-10-15T02:41:46Z) - ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Embedding-Aligned Language Models [23.28201682160259]
本稿では,潜在埋め込み空間内で定義された目的に従うために,大規模言語モデル(LLM)を訓練するための新しいアプローチを提案する。
埋め込み型誘導言語 (EAGLE) エージェントは, 埋め込み空間の最適領域に向けて, LLM の生成を反復的に推し進めるように訓練されている。
論文 参考訳(メタデータ) (2024-05-24T06:11:17Z) - LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding [21.916774808384893]
提案手法は,レイアウト対応事前学習とレイアウト対応監視ファインタニングの2つのコンポーネントから構成される。
標準ベンチマークの実験では、提案されたLayoutLLMは、文書理解のためにオープンソースの7B LLMs/MLLMを採用する既存の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-08T06:40:28Z) - A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.85753597586226]
計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。
本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
論文 参考訳(メタデータ) (2023-03-16T02:02:18Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。