Fugu-MT 論文翻訳(概要): Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

論文の概要: Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

arxiv url: http://arxiv.org/abs/2603.11640v1
Date: Thu, 12 Mar 2026 08:09:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:25.955251
Title: Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans
Title（参考訳）: マルチモーダルな大規模言語モデルによるアーキテクチャフロアプランの理解,生成,編集を可能にするTokenization
Authors: Sizhong Qin, Ramon Elias Weber, Xinzheng Lu,
Abstract要約: フロアプランの理解,生成,編集をひとつのフレームワークに統合する,大規模な言語モデルであるHouseMindを提案する。このフレームワークは,効率的かつ局所的なデプロイ性を維持しながら,優れた幾何的妥当性と制御性を実現するかを示す。
参考スコア（独自算出の注目度）: 1.0259341218563047
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Architectural floor plan design demands joint reasoning over geometry, semantics, and spatial hierarchy, which remains a major challenge for current AI systems. Although recent diffusion and language models improve visual fidelity, they still struggle with coherent spatial reasoning and controllable generation. We present HouseMind, a multimodal large language model that unifies floor plan understanding, generation, and editing in one framework. We introduce discrete room-instance tokens to construct a unified vocabulary that bridges layouts and symbolic reasoning. With multimodal alignment and instruction tuning, the model synthesizes coherent, controllable layouts from text instructions. Experiments show how the framework achieves superior geometric validity and controllability while remaining efficient and locally deployable.
Abstract（参考訳）: アーキテクチャのフロアプラン設計は、幾何学、意味論、空間階層に関する共同推論を必要とするが、現在のAIシステムでは依然として大きな課題である。最近の拡散モデルと言語モデルは視覚的忠実度を改善するが、それでもコヒーレントな空間推論と制御可能な生成に苦慮している。フロアプランの理解,生成,編集をひとつのフレームワークに統合する多モーダルな大規模言語モデルであるHouseMindを提案する。本稿では,レイアウトとシンボル推論を橋渡しする統一語彙を構築するために,個別のルームインスタンストークンを導入する。マルチモーダルアライメントと命令チューニングにより、モデルはテキスト命令から一貫性のある制御可能なレイアウトを合成する。実験は、フレームワークが効率的でローカルにデプロイ可能でありながら、優れた幾何的妥当性と制御性を達成する方法を示している。

関連論文リスト

Top 10 Open Challenges Steering the Future of Diffusion Language Model and Its Variants [85.33837131101342]
本稿では,基盤基盤,アルゴリズム最適化,認知推論,統合マルチモーダルインテリジェンスという4つの柱で構成された戦略ロードマップを提案する。この移行は、複雑な構造的推論、動的自己補正、シームレスなマルチモーダル統合が可能な次世代AIの開発に不可欠である、と我々は主張する。
論文参考訳（メタデータ） (2026-01-20T14:58:23Z)
Image, Word and Thought: A More Challenging Language Task for the Iterated Learning Model [1.7205106391379026]
反復学習モデルは、世代から世代への言語伝達をシミュレートする。このモデルのエージェントは、表現力のある言語を学び、伝達することができる。
論文参考訳（メタデータ） (2026-01-06T10:53:00Z)
Seeing through Imagination: Learning Scene Geometry via Implicit Spatial World Modeling [68.14113731953971]
本稿では,人間のような想像力をシミュレートするインプリシット・スパットIaLwOrldモデリングパラダイムMILOを紹介する。提案手法は,複数のベースラインとベンチマークにまたがる空間推論能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-12-01T16:01:41Z)
A non-ergodic framework for understanding emergent capabilities in Large Language Models [0.5439020425819]
大規模言語モデルには、予期せぬ規模で現れる創発的な能力がある。スチュアート・カウフマン(Stuart Kauffman)の隣接可能な可能性(TAP)の理論に基づく数学的枠組みを提供し、能力の出現を説明する。
論文参考訳（メタデータ） (2025-01-03T05:11:41Z)
LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文参考訳（メタデータ） (2024-06-24T03:36:29Z)
Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文参考訳（メタデータ） (2023-09-15T17:44:05Z)
PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning [77.03847056008598]
PlaSmaは、手続き的な知識と(制約のある)言語計画能力を持つ小さな言語モデルを実現するための、新しい2段階のアプローチである。我々は,小言語モデルにおけるコモンセンス知識を高めるための記号的手続き的知識蒸留法と,より構造化された正確な推論を容易にする推論時アルゴリズムを開発する。
論文参考訳（メタデータ） (2023-05-31T00:55:40Z)
APo-VAE: Text Generation in Hyperbolic Space [116.11974607497986]
本稿では,双曲型潜在空間におけるテキスト生成について検討し,連続的な階層表現を学習する。適応型ポインケア可変オートエンコーダ (APo-VAE) を提示し, ポインケア球上における潜伏変数の事前および変動後部の両方を包み込み正規分布により定義する。言語モデリングと対話応答生成における実験は,提案したAPo-VAEモデルの有効性を示す。
論文参考訳（メタデータ） (2020-04-30T19:05:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。