論文の概要: HouseTune: Two-Stage Floorplan Generation with LLM Assistance
- arxiv url: http://arxiv.org/abs/2411.12279v4
- Date: Mon, 10 Mar 2025 11:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:05.09212
- Title: HouseTune: Two-Stage Floorplan Generation with LLM Assistance
- Title(参考訳): HouseTune: LLMアシストによる2段階フロアプラン生成
- Authors: Ziyang Zong, Guanying Chen, Zhaohuan Zhan, Fengcheng Yu, Guang Tan,
- Abstract要約: 本稿では,大規模言語モデルの推論能力と拡散モデルの生成能力を組み合わせた2段階のテキスト・ツー・フロアプラン・フレームワークを提案する。
実験結果から,本手法は全指標の最先端性能を実現し,実用的ホームデザインアプリケーションにおける有効性を検証した。
- 参考スコア(独自算出の注目度): 10.558141230827847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a two-stage text-to-floorplan generation framework that combines the reasoning capability of Large Language Models (LLMs) with the generative power of diffusion models. In the first stage, we leverage a Chain-of-Thought (CoT) prompting strategy to guide an LLM in generating an initial layout (Layout-Init) from natural language descriptions, which ensures a user-friendly and intuitive design process. However, Layout-Init may lack precise geometric alignment and fine-grained structural details. To address this, the second stage employs a conditional diffusion model to refine Layout-Init into a final floorplan (Layout-Final) that better adheres to physical constraints and user requirements. Unlike prior methods, our approach effectively reduces the difficulty of floorplan generation learning without the need for extensive domain-specific training data. Experimental results demonstrate that our approach achieves state-of-the-art performance across all metrics, which validates its effectiveness in practical home design applications.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の推論能力と拡散モデルの生成能力を組み合わせた2段階のテキスト・ツー・フロアプラン生成フレームワークを提案する。
第1段階では,自然言語記述から初期レイアウト(レイアウトインジット)を生成する上で,LCMを誘導する戦略であるChain-of-Thought(CoT)を活用し,ユーザフレンドリで直感的な設計プロセスを実現する。
しかし、レイアウト・イニットは正確な幾何学的アライメントと微細な構造的詳細を欠いている可能性がある。
これを解決するために第2段階では、条件付き拡散モデルを使用して、Layout-Initを物理的な制約とユーザ要求によりよく準拠する最終的なフロアプラン(Layout-Final)に洗練する。
従来の手法とは異なり,本手法は広範囲なドメイン固有の学習データを必要としないフロアプラン生成学習の難しさを効果的に軽減する。
実験結果から,本手法は全指標の最先端性能を実現し,実用的ホームデザインアプリケーションにおける有効性を検証した。
関連論文リスト
- LayoutCoT: Unleashing the Deep Reasoning Potential of Large Language Models for Layout Generation [12.616508576956136]
条件付きレイアウト生成は、ユーザが定義した制約から視覚的に魅力的でセマンティックに一貫性のあるレイアウトを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) の推論能力を活用する新しい手法として,検索型拡張生成(RAG) とChain-of-Thought (CoT) 技術の組み合わせを提案する。
我々は3つの条件付きレイアウト生成タスクにまたがる5つの公開データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-04-15T03:12:01Z) - World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning [60.100794160682646]
そこで本稿では,嗜好学習による状態予測と行動選択を協調的に最適化する新たな学習フレームワークを提案する。
人間のアノテーションを使わずに軌道や段階的な選好データを自動的に収集するために,試行錯誤による広範囲な探索のための木探索機構を導入する。
提案手法は,Qwen2-VL (7B), LLaVA-1.6 (7B), LLaMA-3.2 (11B) に適用した場合, 既存の手法と GPT-4o を著しく上回っている。
論文 参考訳(メタデータ) (2025-03-13T15:49:56Z) - On the Limit of Language Models as Planning Formalizers [4.145422873316857]
大規模言語モデルは、接地された環境で検証可能な計画を作成するのに失敗する。
新たな作業のラインは、計画領域の形式表現を生成するフォーマライザとしてLLMを使うことの成功を示しています。
我々は,PDDLとして記述を効果的に定式化できるモデルが十分に大きいことを観察し,それらを直接的に生成する計画よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-13T05:50:22Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - ChatHouseDiffusion: Prompt-Guided Generation and Editing of Floor Plans [10.82348603357201]
本稿では,大規模言語モデル(LLM)を利用して自然言語入力を解釈するChatHouseDiffusionを提案する。
また、トポロジカルな関係をエンコードするためにグラマーを使用し、拡散モデルを使用してフロアプランを柔軟に生成し編集する。
既存のモデルと比較すると、ChatHouseDiffusionはより高いIoU(Intersection over Union)スコアを達成し、完了を必要とせずに正確な局所的な調整を可能にする。
論文 参考訳(メタデータ) (2024-10-15T02:41:46Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - DStruct2Design: Data and Benchmarks for Data Structure Driven Generative Floor Plan Design [5.567585193148804]
フロアプラン生成のデータ構造定式化のための新しいデータセットを構築した。
部分的あるいは完全な制約が与えられたフロアプラン生成の課題について検討する。
数値制約を考慮したフロアプラン生成問題に対するフロアプランデータ構造LLMの適用可能性を示す。
論文 参考訳(メタデータ) (2024-07-22T15:27:55Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Embedding-Aligned Language Models [23.28201682160259]
本稿では,潜在埋め込み空間内で定義された目的に従うために,大規模言語モデル(LLM)を訓練するための新しいアプローチを提案する。
埋め込み型誘導言語 (EAGLE) エージェントは, 埋め込み空間の最適領域に向けて, LLM の生成を反復的に推し進めるように訓練されている。
論文 参考訳(メタデータ) (2024-05-24T06:11:17Z) - LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding [21.916774808384893]
提案手法は,レイアウト対応事前学習とレイアウト対応監視ファインタニングの2つのコンポーネントから構成される。
標準ベンチマークの実験では、提案されたLayoutLLMは、文書理解のためにオープンソースの7B LLMs/MLLMを採用する既存の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-08T06:40:28Z) - GenSERP: Large Language Models for Whole Page Presentation [22.354349023665538]
GenSERPは、中間検索結果を動的に整理する数ショット設定で視覚を持つ大きな言語モデルを活用するフレームワークである。
私たちのアプローチには,情報収集,回答生成,採点フェーズという3つの主要な段階があります。
論文 参考訳(メタデータ) (2024-02-22T05:41:24Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.85753597586226]
計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。
本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
論文 参考訳(メタデータ) (2023-03-16T02:02:18Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing [110.4684789199555]
シナリオベースのセマンティックパーシングを導入し、最初に発話の「scenario」を曖昧にする必要がある元のタスクの変種を紹介します。
この定式化により、タスクの粗くきめ細かな側面を分離することが可能となり、それぞれがオフザシェルフニューラルネットワークモジュールで解決される。
私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を得られるようになります。
論文 参考訳(メタデータ) (2022-02-02T08:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。