論文の概要: Enhancing Floor Plan Recognition: A Hybrid Mix-Transformer and U-Net Approach for Precise Wall Segmentation
- arxiv url: http://arxiv.org/abs/2512.02413v2
- Date: Tue, 09 Dec 2025 20:58:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.188049
- Title: Enhancing Floor Plan Recognition: A Hybrid Mix-Transformer and U-Net Approach for Precise Wall Segmentation
- Title(参考訳): フロアプラン認識の強化: 高精度壁分割のためのハイブリッド・ミックス・トランスフォーマとU-Netアプローチ
- Authors: Dmitriy Parashchuk, Alexey Kapshitskiy, Yuriy Karyakin,
- Abstract要約: 本研究では,Mix-TransformerエンコーダとU-Netデコーダを組み合わせたハイブリッドニューラルネットワークMitUNetを紹介する。
我々の手法は精度とリコールのバランスを保ち、正確な境界回復を保証する。
CubiCasa5kデータセットと独自の地域データセットの実験は、構造的に正しいマスクを生成する上でのMitUNetの優位性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic 3D reconstruction of indoor spaces from 2D floor plans necessitates high-precision semantic segmentation of structural elements, particularly walls. However, existing methods often struggle with detecting thin structures and maintaining geometric precision. This study introduces MitUNet, a hybrid neural network combining a Mix-Transformer encoder and a U-Net decoder enhanced with spatial and channel attention blocks. Our approach, optimized with the Tversky loss function, achieves a balance between precision and recall, ensuring accurate boundary recovery. Experiments on the CubiCasa5k dataset and a proprietary regional dataset demonstrate MitUNet's superiority in generating structurally correct masks with high boundary accuracy, outperforming standard models. This tool provides a robust foundation for automated 3D reconstruction pipelines. To ensure reproducibility and facilitate future research, the source code and the proprietary regional dataset are publicly available at https://github.com/aliasstudio/mitunet and https://doi.org/10.5281/zenodo.17871079 respectively.
- Abstract(参考訳): 2次元フロアプランからの室内空間の自動3次元再構成は, 構造要素, 特に壁面の高精度なセマンティックセグメンテーションを必要とする。
しかし、既存の手法は、しばしば薄い構造を検出し、幾何学的精度を維持するのに苦労する。
本研究では、Mix-Transformerエンコーダと空間およびチャネルアテンションブロックを拡張したU-Netデコーダを組み合わせたハイブリッドニューラルネットワークであるMitUNetを紹介する。
提案手法は, トヴェルスキー損失関数に最適化され, 精度とリコールのバランスを保ち, 正確な境界回復を保証する。
CubiCasa5kデータセットとプロプライエタリな地域データセットの実験は、MitUNetが構造的に正しいマスクを高い境界精度で生成し、標準モデルより優れていることを示す。
このツールは、自動化された3D再構築パイプラインのための堅牢な基盤を提供する。
再現性を確保し、将来の研究を容易にするため、ソースコードとプロプライエタリな地域データセットはそれぞれhttps://github.com/aliasstudio/mitunetとhttps://doi.org/10.5281/zenodo.17871079で公開されている。
関連論文リスト
- LATTICE: Democratize High-Fidelity 3D Generation at Scale [27.310104395842075]
LATTICEは高忠実度3Dアセット生成のための新しいフレームワークである。
VoxSetは、3Dの資産を粗いボクセル格子に固定された潜在ベクトルのコンパクトな集合に圧縮する半構造化表現である。
提案手法のコアは単純だが,任意の解像度復号化,低コストトレーニング,フレキシブル推論スキームをサポートする。
論文 参考訳(メタデータ) (2025-11-24T03:22:19Z) - Generative MIMO Beam Map Construction for Location Recovery and Beam Tracking [67.65578956523403]
本稿では,スパースチャネル状態情報(CSI)から位置ラベルを直接復元する生成フレームワークを提案する。
生のCSIを直接格納する代わりに、小型の低次元無線地図の埋め込みを学び、生成モデルを利用して高次元CSIを再構築する。
数値実験により,NLOSシナリオにおける局所化精度が30%以上向上し,20%のキャパシティゲインが得られることが示された。
論文 参考訳(メタデータ) (2025-11-21T07:25:49Z) - LoG3D: Ultra-High-Resolution 3D Shape Modeling via Local-to-Global Partitioning [26.88556500272625]
非符号距離場(UDF)に基づく新しい3次元変分オートエンコーダフレームワークを提案する。
私たちの中心となるイノベーションは、UDFを統一サブボリュームであるUBlockに分割することで処理する、ローカルからグローバルなアーキテクチャです。
再現精度と生成品質の両面での最先端性能を実証し,表面の滑らかさと幾何学的柔軟性を向上した。
論文 参考訳(メタデータ) (2025-11-13T07:34:43Z) - GauSSmart: Enhanced 3D Reconstruction through 2D Foundation Models and Geometric Filtering [50.675710727721786]
2次元基礎モデルと3次元ガウススプラッティング再構成をブリッジするハイブリッド手法であるGauSSmartを提案する。
提案手法は,凸フィルタリングや意味的特徴監視など,確立した2次元コンピュータビジョン技術を統合している。
GauSSmartは既存のGaussian Splattingよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-16T03:38:26Z) - Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention [54.15345846343084]
品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。
部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。
実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-23T17:57:16Z) - AMBER: Adaptive Mesh Generation by Iterative Mesh Resolution Prediction [48.72179728638418]
本稿では,メッシュ適応のための教師あり学習手法であるAMBER(Adaptive Meshing By Expert Reconstruction)を提案する。
AMBERは、サイズフィールドを反復的に予測し、この予測を使用して、アウト・オブ・ザ・ボックスメッシュジェネレータを使用して、新しい中間メッシュを生成する。
AMBERを2次元および3次元の幾何学、古典物理学問題を含むデータセット、機械部品、人間の専門家メッシュを用いた実世界の産業デザインで評価する。
論文 参考訳(メタデータ) (2025-05-29T17:10:44Z) - On Geometry-Enhanced Parameter-Efficient Fine-Tuning for 3D Scene Segmentation [52.96632954620623]
本稿では3Dポイント・クラウド・トランス用に設計された新しい幾何対応PEFTモジュールを提案する。
当社のアプローチでは,大規模3Dポイントクラウドモデルの効率的,スケーラブル,かつ幾何を考慮した微調整のための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2025-05-28T15:08:36Z) - TSGaussian: Semantic and Depth-Guided Target-Specific Gaussian Splatting from Sparse Views [18.050257821756148]
TSGaussianは、新しいビュー合成タスクにおける幾何学的劣化を避けるために、意味的制約と深さ事前の制約を組み合わせる新しいフレームワークである。
提案手法は,バックグラウンドアロケーションを最小化しながら,指定された目標に対する計算資源の優先順位付けを行う。
大規模な実験により、TSGaussianは3つの標準データセット上で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-13T11:26:38Z) - Lightweight Deep Learning Framework for Accurate Particle Flow Energy Reconstruction [8.598010350935596]
本稿では,ディープラーニング再構築の枠組みを体系的に評価する。
重み付き平均2乗と誤差構造類似度指数を組み合わせたハイブリッド損失関数を設計する。
我々は,モーダル時間的相関とエネルギー変位非線形性を捉えるモデルの能力を強化する。
論文 参考訳(メタデータ) (2024-10-08T11:49:18Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Double-Shot 3D Shape Measurement with a Dual-Branch Network for Structured Light Projection Profilometry [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できる。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - Self-supervised Learning for Enhancing Geometrical Modeling in 3D-Aware
Generative Adversarial Network [42.16520614686877]
3D-GANは、メッシュの不完全性や穴などの3D幾何学的モデリングにおいて、アーティファクトを示す。
これらの欠点は、主にアノテーション付き3Dデータの可用性が制限されているためである。
本稿では,任意の3D-GANの補助的損失を補うセルフ・スーパーバイザード・ラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T04:55:33Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - Deep Active Surface Models [60.027353171412216]
アクティブサーフェスモデルは複雑な3次元表面をモデル化するのに有用な長い歴史を持っているが、ディープネットワークと組み合わせて使用されるのはアクティブ・コンターのみである。
グラフ畳み込みネットワークにシームレスに統合して、洗練された滑らかさを強制できるレイヤを導入します。
論文 参考訳(メタデータ) (2020-11-17T18:48:28Z) - Learning Local Neighboring Structure for Robust 3D Shape Representation [143.15904669246697]
3Dメッシュの表現学習は多くのコンピュータビジョンやグラフィックスアプリケーションにおいて重要である。
局所構造認識型異方性畳み込み操作(LSA-Conv)を提案する。
本モデルでは,3次元形状復元において最先端の手法に比べて顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-04-21T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。