論文の概要: Tokenizing Buildings: A Transformer for Layout Synthesis
- arxiv url: http://arxiv.org/abs/2512.04832v1
- Date: Thu, 04 Dec 2025 14:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.211967
- Title: Tokenizing Buildings: A Transformer for Layout Synthesis
- Title(参考訳): トークン化建物:レイアウト合成用変圧器
- Authors: Manuel Ladron de Guevara, Jinmo Rhee, Ardavan Bidgoli, Vaidas Razgaitis, Michael Bergin,
- Abstract要約: Small Building Model (SBM) は、ビル情報モデリングシーンにおけるレイアウト合成のためのトランスフォーマーベースのアーキテクチャである。
建築要素の異質な特徴集合をシーケンスに統一することで、どのように建物をトークン化するかという問題に対処する。
我々は,1つのトランスフォーマーバックボーンを2つのモードでトレーニングする: エンコーダのみの経路で高忠実度部屋埋め込みを発生させ,エンコーダ-デコーダパイプラインで部屋エンティティの自動回帰予測を行う。
- 参考スコア(独自算出の注目度): 0.6524460254566904
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Small Building Model (SBM), a Transformer-based architecture for layout synthesis in Building Information Modeling (BIM) scenes. We address the question of how to tokenize buildings by unifying heterogeneous feature sets of architectural elements into sequences while preserving compositional structure. Such feature sets are represented as a sparse attribute-feature matrix that captures room properties. We then design a unified embedding module that learns joint representations of categorical and possibly correlated continuous feature groups. Lastly, we train a single Transformer backbone in two modes: an encoder-only pathway that yields high-fidelity room embeddings, and an encoder-decoder pipeline for autoregressive prediction of room entities, referred to as Data-Driven Entity Prediction (DDEP). Experiments across retrieval and generative layout synthesis show that SBM learns compact room embeddings that reliably cluster by type and topology, enabling strong semantic retrieval. In DDEP mode, SBM produces functionally sound layouts, with fewer collisions and boundary violations and improved navigability.
- Abstract(参考訳): 建築情報モデリング(BIM)シーンにおけるレイアウト合成のためのトランスフォーマーベースのアーキテクチャであるSmall Building Model(SBM)を紹介する。
構成構造を保ちながら、構造要素の異種特徴集合を配列に統一することで、どのように建物をトークン化するかという問題に対処する。
このような特徴集合は、部屋のプロパティをキャプチャするスパース属性特徴行列として表現される。
次に、分類的および潜在的に相関した連続特徴群の合同表現を学習する統合埋め込みモジュールを設計する。
最後に、単一トランスフォーマーバックボーンを2つのモードでトレーニングする。高忠実度ルーム埋め込みを生成するエンコーダのみのパスと、データ駆動エンティティ予測(DDEP)と呼ばれる部屋エンティティの自動回帰予測のためのエンコーダ-デコーダパイプラインである。
検索および生成的レイアウト合成の実験により、SBMは、タイプとトポロジーによって確実にクラスタリングされるコンパクトな部屋埋め込みを学習し、強力なセマンティック検索を可能にした。
DDEPモードでは、SBMは機能的に音のレイアウトを生成し、衝突や境界違反が少なく、航行性も向上した。
関連論文リスト
- CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting [0.0]
人間は、クラスアイデンティティに頼るのではなく、視覚的反復と構造的関係を知覚することで、多種多様な物体を努力せずに数えることができる。
本研究では,クラスに依存しないオブジェクトカウントのための繰り返しと構造的コヒーレンスを認識することを学ぶトランスフォーマーベースのフレームワークであるCountFormerを紹介する。
論文 参考訳(メタデータ) (2025-10-27T19:16:02Z) - Light-SQ: Structure-aware Shape Abstraction with Superquadrics for Generated Meshes [60.92139345612904]
我々は、新しいスーパークワッドリックベースの最適化フレームワークLight-SQを提案する。
本稿では,構造対応ボリューム分解によるブロック再配置戦略を提案する。
実験によると、Light-SQはスーパークワッドリックで効率よく、高忠実で、編集可能な形状の抽象化を可能にする。
論文 参考訳(メタデータ) (2025-09-29T16:18:32Z) - UCS: A Universal Model for Curvilinear Structure Segmentation [11.10994320036562]
カービリナー構造セグメンテーション(CSS)は、医療画像、景観分析、産業表面検査、植物分析など、様々な領域において不可欠である。
SAMをCSSタスクに適応させ,その一般化を向上するUniversal Curvilinear Structure (textitUCS) モデルを提案する。
textitUCSは、医学、工学、自然、植物画像にまたがる最先端の一般化とオープンセットのセグメンテーション性能を示す。
論文 参考訳(メタデータ) (2025-04-05T03:05:04Z) - Learning and Evaluating Hierarchical Feature Representations [3.770103075126785]
我々は、直交部分空間の階層的構成(Hier-COS)という新しい枠組みを提案する。
Hier-COSは、与えられた分類木の構造と整合した設計により、深い特徴埋め込みをベクトル空間にマッピングすることを学ぶ。
Hier-COSはすべてのデータセットにまたがって最先端の階層的パフォーマンスを実現し,同時に1つのケースを除いてトップ1の精度を上回ります。
論文 参考訳(メタデータ) (2025-03-10T20:59:41Z) - P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-30T19:40:08Z) - Unite-Divide-Unite: Joint Boosting Trunk and Structure for High-accuracy
Dichotomous Image Segmentation [48.995367430746086]
Dichotomous Image rendering (DIS) は、自然の風景からカテゴリーに依存しない前景の物体をピンポイントすることを目的としている。
本稿では, トランクと構造同定の有効性を高めるために, 相補的特徴を再構成し, 分割的に配置する, UDUN (Unite-Divide-Unite Network) を提案する。
1024*1024入力を用いて、ResNet-18で65.3fpsのリアルタイム推論を可能にする。
論文 参考訳(メタデータ) (2023-07-26T09:04:35Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。