論文の概要: FloorplanVLM: A Vision-Language Model for Floorplan Vectorization
- arxiv url: http://arxiv.org/abs/2602.06507v1
- Date: Fri, 06 Feb 2026 08:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.306285
- Title: FloorplanVLM: A Vision-Language Model for Floorplan Vectorization
- Title(参考訳): フロアプランVLM:フロアプランベクトル化のためのビジョンランゲージモデル
- Authors: Yuanqing Liu, Ziming Yang, Yulong Li, Yue Yang,
- Abstract要約: 本稿では,ベクトル化を画像条件付きシーケンスモデリングタスクとして再構成する統合フレームワークFloorplanVLMを提案する。
この「ピクセル・ツー・シーケンス」パラダイムは、壁や湾曲した弧のような複雑な接地における正確で全体的な制約満足度を可能にする。
- 参考スコア(独自算出の注目度): 15.691267151619442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Converting raster floorplans into engineering-grade vector graphics is challenging due to complex topology and strict geometric constraints. To address this, we present FloorplanVLM, a unified framework that reformulates floorplan vectorization as an image-conditioned sequence modeling task. Unlike pixel-based methods that rely on fragile heuristics or query-based transformers that generate fragmented rooms, our model directly outputs structured JSON sequences representing the global topology. This 'pixels-to-sequence' paradigm enables the precise and holistic constraint satisfaction of complex geometries, such as slanted walls and curved arcs. To support this data-hungry approach, we introduce a scalable data engine: we construct a large-scale dataset (Floorplan-2M) and a high-fidelity subset (Floorplan-HQ-300K) to balance geometric diversity and pixel-level precision. We then employ a progressive training strategy, using Supervised Fine-Tuning (SFT) for structural grounding and quality annealing, followed by Group Relative Policy Optimization (GRPO) for strict geometric alignment. To standardize evaluation on complex layouts, we establish and open-source FPBench-2K. Evaluated on this rigorous benchmark, FloorplanVLM demonstrates exceptional structural validity, achieving $\textbf{92.52%}$ external-wall IoU and robust generalization across non-Manhattan architectures.
- Abstract(参考訳): ラスターフロアプランをエンジニアリンググレードのベクトルグラフィックスに変換することは、複雑なトポロジーと厳密な幾何学的制約のために困難である。
これを解決するために,フロアプランベクトル化を画像条件付きシーケンスモデリングタスクとして再構成する統合フレームワークFloorplanVLMを提案する。
フラグラブルなヒューリスティックや、断片化された部屋を生成するクエリベースのトランスフォーマーに依存するピクセルベースの手法とは異なり、我々のモデルはグローバルトポロジを表す構造化JSONシーケンスを直接出力する。
この「ピクセル・ツー・シーケンス」パラダイムは、斜めの壁や湾曲した弧のような複雑な地形の正確で全体論的制約を満たすことができる。
大規模なデータセット(Floorplan-2M)と高忠実なサブセット(Floorplan-HQ-300K)を構築し、幾何学的多様性とピクセルレベルの精度のバランスをとる。
次に, 厳密な幾何アライメントのためのグループ相対ポリシー最適化 (GRPO) に続いて, 構造接地および品質アニーリングにスーパーバイザードファインチューニング (SFT) を用いて, プログレッシブトレーニング戦略を採用する。
複雑なレイアウトの評価を標準化するために、我々はFPBench-2Kをオープンソースにしました。
この厳密なベンチマークに基づいて、FloorplanVLMは例外的な構造的妥当性を示し、$\textbf{92.52%}$外壁IoUを達成し、非マンハッタンアーキテクチャをまたいだ堅牢な一般化を実現した。
関連論文リスト
- Enhancing Floor Plan Recognition: A Hybrid Mix-Transformer and U-Net Approach for Precise Wall Segmentation [0.0]
本研究では,Mix-TransformerエンコーダとU-Netデコーダを組み合わせたハイブリッドニューラルネットワークMitUNetを紹介する。
我々の手法は精度とリコールのバランスを保ち、正確な境界回復を保証する。
CubiCasa5kデータセットと独自の地域データセットの実験は、構造的に正しいマスクを生成する上でのMitUNetの優位性を示している。
論文 参考訳(メタデータ) (2025-12-02T04:47:53Z) - Light-SQ: Structure-aware Shape Abstraction with Superquadrics for Generated Meshes [60.92139345612904]
我々は、新しいスーパークワッドリックベースの最適化フレームワークLight-SQを提案する。
本稿では,構造対応ボリューム分解によるブロック再配置戦略を提案する。
実験によると、Light-SQはスーパークワッドリックで効率よく、高忠実で、編集可能な形状の抽象化を可能にする。
論文 参考訳(メタデータ) (2025-09-29T16:18:32Z) - CAGE: Continuity-Aware edGE Network Unlocks Robust Floorplan Reconstruction [24.09888364478496]
我々は,点-雲密度マップから直接ベクトルフロアプランを再構築する堅牢なフレームワークであるCAGEを提案する。
CAGEは最先端のパフォーマンスを達成し、F1スコアは99.1%(部屋)、91.7%(コーナー)、89.3%(角度)である。
論文 参考訳(メタデータ) (2025-09-18T22:10:37Z) - GSDiff: Synthesizing Vector Floorplans via Geometry-enhanced Structural Graph Generation [3.78198085695976]
建築のフロアプラン設計は住宅やインテリアの設計に不可欠であり、建築家による手作業によるスケッチのより高速で費用対効果の高い代替手段を提供する。
ルールベースおよび学習ベースのアプローチを含む既存の手法は、広範な後処理を伴う設計と制約付き生成の課題に直面している。
本稿では,GSDiffと呼ばれる構造グラフ生成によるベクトル設計のための新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-29T04:40:31Z) - 3D Geometric Shape Assembly via Efficient Point Cloud Matching [59.241448711254485]
Proxy Match Transform (PMT) は、部品の配向面間の信頼性の高いマッチングを可能にする、高次特徴変換層である。
PMT を基盤として,幾何学的組立作業のための新しいフレームワーク Proxy Match TransformeR (PMTR) を導入する。
我々は,Breaking Badの大規模3次元幾何形状集合ベンチマークデータセットを用いてPMTRの評価を行った。
論文 参考訳(メタデータ) (2024-07-15T08:50:02Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z) - Visual SLAM with Graph-Cut Optimized Multi-Plane Reconstruction [11.215334675788952]
本稿では,インスタンス平面セグメンテーションネットワークからのキューを用いたポーズ推定とマッピングを改善する意味平面SLAMシステムを提案する。
メインストリームのアプローチはRGB-Dセンサーを使用するが、そのようなシステムを備えた単眼カメラを使うことは、ロバストデータアソシエーションや正確な幾何モデルフィッティングといった課題に直面している。
論文 参考訳(メタデータ) (2021-08-09T18:16:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。