論文の概要: Raster2Seq: Polygon Sequence Generation for Floorplan Reconstruction
- arxiv url: http://arxiv.org/abs/2602.09016v1
- Date: Mon, 09 Feb 2026 18:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.442093
- Title: Raster2Seq: Polygon Sequence Generation for Floorplan Reconstruction
- Title(参考訳): Raster2Seq: フロアプラン再構築のためのポリゴンシーケンス生成
- Authors: Hao Phung, Hadar Averbuch-Elor,
- Abstract要約: 本稿では,シーケンス・ツー・シーケンス・タスクとしてフロアプランをフレーミングするRaster2Seqを提案する。
自己回帰デコーダは、画像特徴および以前に生成されたコーナーに基づいて、次のコーナーを予測することを学ぶ。
提案手法は,標準ベンチマーク上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 21.366278792227785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing a structured vector-graphics representation from a rasterized floorplan image is typically an important prerequisite for computational tasks involving floorplans such as automated understanding or CAD workflows. However, existing techniques struggle in faithfully generating the structure and semantics conveyed by complex floorplans that depict large indoor spaces with many rooms and a varying numbers of polygon corners. To this end, we propose Raster2Seq, framing floorplan reconstruction as a sequence-to-sequence task in which floorplan elements--such as rooms, windows, and doors--are represented as labeled polygon sequences that jointly encode geometry and semantics. Our approach introduces an autoregressive decoder that learns to predict the next corner conditioned on image features and previously generated corners using guidance from learnable anchors. These anchors represent spatial coordinates in image space, hence allowing for effectively directing the attention mechanism to focus on informative image regions. By embracing the autoregressive mechanism, our method offers flexibility in the output format, enabling for efficiently handling complex floorplans with numerous rooms and diverse polygon structures. Our method achieves state-of-the-art performance on standard benchmarks such as Structure3D, CubiCasa5K, and Raster2Graph, while also demonstrating strong generalization to more challenging datasets like WAFFLE, which contain diverse room structures and complex geometric variations.
- Abstract(参考訳): ラスタ化フロアプラン画像から構造化ベクトル図形表現を再構成することは、一般に、自動理解やCADワークフローなどのフロアプランを含む計算タスクにおいて重要な前提条件である。
しかし、既存の手法は、多くの部屋とさまざまな多角形コーナーを持つ大きな屋内空間を描写する複雑なフロアプランによって伝達される構造と意味を忠実に生成するのに苦労している。
この目的のために,部屋,窓,ドアなどのフロアプラン要素を,幾何学的・意味論的にエンコードしたラベル付きポリゴンシーケンスとして表現するシーケンス・ツー・シーケンスタスクとして,Raster2Seqを提案する。
提案手法では,学習可能なアンカーからのガイダンスを用いて,画像特徴や予め生成したコーナーの次角の予測を学習する自動回帰デコーダを導入する。
これらのアンカーは画像空間における空間座標を表しており、注意機構を効果的に誘導し、情報的画像領域に集中させることができる。
自動回帰機構を取り入れることで、出力形式に柔軟性を提供し、多数の部屋と多角形構造を持つ複雑なフロアプランを効率的に扱うことができる。
提案手法は,Structure3D,CubeCasa5K,Raster2Graphなどの標準ベンチマーク上での最先端性能を実現するとともに,多様な部屋構造と複雑な幾何学的変動を含むWAFFLEのようなより困難なデータセットへの強力な一般化を示す。
関連論文リスト
- FloorplanVLM: A Vision-Language Model for Floorplan Vectorization [15.691267151619442]
本稿では,ベクトル化を画像条件付きシーケンスモデリングタスクとして再構成する統合フレームワークFloorplanVLMを提案する。
この「ピクセル・ツー・シーケンス」パラダイムは、壁や湾曲した弧のような複雑な接地における正確で全体的な制約満足度を可能にする。
論文 参考訳(メタデータ) (2026-02-06T08:57:52Z) - ControlVP: Interactive Geometric Refinement of AI-Generated Images with Consistent Vanishing Points [32.23473666846317]
生成した画像の点不整合を補正するユーザガイドフレームワークである制御VPを提案する。
提案手法は, 構造物の輪郭から導出される構造的ガイダンスを組み込むことにより, 事前学習拡散モデルを拡張する。
本手法は,ベースラインに匹敵する視力を維持しながら,グローバルな幾何整合性を向上させる。
論文 参考訳(メタデータ) (2025-12-08T12:38:11Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Connecting the Dots: Floorplan Reconstruction Using Two-Level Queries [27.564355569013706]
本稿では,複数の部屋の多角形を並列に生成するトランスフォーマーアーキテクチャを提案する。
提案手法は,Structured3DとSceneCADの2つの挑戦的データセットに対して,新たな最先端化を実現する。
追加情報、すなわちセマンティックルームタイプやドアや窓のようなアーキテクチャ要素を予測するために簡単に拡張できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:09Z) - MCTS with Refinement for Proposals Selection Games in Scene
Understanding [32.92475660892122]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを適用したシーン理解問題に適用可能な新しい手法を提案する。
提案手法は,提案された提案のプールから,目的語を最大化する提案を共同で選択し,最適化する。
本手法は,部屋配置に厳しい制約を加えることなく,Matterport3Dデータセット上で高い性能を示す。
論文 参考訳(メタデータ) (2022-07-07T10:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。