論文の概要: MitUNet: Enhancing Floor Plan Recognition using a Hybrid Mix-Transformer and U-Net Architecture
- arxiv url: http://arxiv.org/abs/2512.02413v1
- Date: Tue, 02 Dec 2025 04:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.724602
- Title: MitUNet: Enhancing Floor Plan Recognition using a Hybrid Mix-Transformer and U-Net Architecture
- Title(参考訳): MitUNet:ハイブリッド・ミックス・トランスフォーマとU-Netアーキテクチャによる床面平面認識の強化
- Authors: Dmitriy Parashchuk, Alexey Kapshitskiy, Yuriy Karyakin,
- Abstract要約: 壁分割タスクに特化して設計されたハイブリッドニューラルネットワークアーキテクチャであるMitUNetを紹介する。
MitUNetでは、階層型Mix-Transformerエンコーダを用いて、グローバルコンテキストをキャプチャし、ScSEアテンションブロックで拡張されたU-Netデコーダを用いて正確な境界回復を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic 3D reconstruction of indoor spaces from 2D floor plans requires high-precision semantic segmentation of structural elements, particularly walls. However, existing methods optimized for standard metrics often struggle to detect thin structural components and yield masks with irregular boundaries, lacking the geometric precision required for subsequent vectorization. To address this issue, we introduce MitUNet, a hybrid neural network architecture specifically designed for wall segmentation tasks in the context of 3D modeling. In MitUNet, we utilize a hierarchical Mix-Transformer encoder to capture global context and a U-Net decoder enhanced with scSE attention blocks for precise boundary recovery. Furthermore, we propose an optimization strategy based on the Tversky loss function to effectively balance precision and recall. By fine-tuning the hyperparameters of the loss function, we prioritize the suppression of false positive noise along wall boundaries while maintaining high sensitivity to thin structures. Our experiments on the public CubiCasa5k dataset and a proprietary regional dataset demonstrate that the proposed approach ensures the generation of structurally correct masks with high boundary accuracy, outperforming standard single-task models. MitUNet provides a robust tool for data preparation in automated 3D reconstruction pipelines.
- Abstract(参考訳): 2次元フロアプランからの室内空間の自動3次元再構成には, 構造要素, 特に壁面の高精度なセマンティックセマンティックセグメンテーションが必要である。
しかし、標準的な測定値に最適化された既存の手法は、後続のベクトル化に必要な幾何精度を欠いて、薄い構造成分や不規則な境界を持つマスクを検出するのに苦労することが多い。
この問題に対処するために、我々は3Dモデリングのコンテキストにおいて壁分割タスク用に特別に設計されたハイブリッドニューラルネットワークアーキテクチャであるMitUNetを紹介した。
MitUNetでは、階層型Mix-Transformerエンコーダを用いて、グローバルコンテキストをキャプチャし、ScSEアテンションブロックで拡張されたU-Netデコーダを用いて正確な境界回復を行う。
さらに,Tversky損失関数に基づく最適化手法を提案する。
損失関数の過度パラメータを微調整することにより,薄板構造に対する感度を維持しつつ,壁面境界に沿った偽陽性雑音の抑制を優先する。
パブリックなCubeCasa5kデータセットとプロプライエタリな地域データセットに関する我々の実験は、提案手法が標準の単一タスクモデルよりも高い境界精度で構造的に正しいマスクの生成を保証することを実証している。
MitUNetは、自動3D再構築パイプラインのデータ準備のための堅牢なツールを提供する。
関連論文リスト
- LoG3D: Ultra-High-Resolution 3D Shape Modeling via Local-to-Global Partitioning [26.88556500272625]
非符号距離場(UDF)に基づく新しい3次元変分オートエンコーダフレームワークを提案する。
私たちの中心となるイノベーションは、UDFを統一サブボリュームであるUBlockに分割することで処理する、ローカルからグローバルなアーキテクチャです。
再現精度と生成品質の両面での最先端性能を実証し,表面の滑らかさと幾何学的柔軟性を向上した。
論文 参考訳(メタデータ) (2025-11-13T07:34:43Z) - Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention [54.15345846343084]
品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。
部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。
実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-23T17:57:16Z) - AMBER: Adaptive Mesh Generation by Iterative Mesh Resolution Prediction [48.72179728638418]
本稿では,メッシュ適応のための教師あり学習手法であるAMBER(Adaptive Meshing By Expert Reconstruction)を提案する。
AMBERは、サイズフィールドを反復的に予測し、この予測を使用して、アウト・オブ・ザ・ボックスメッシュジェネレータを使用して、新しい中間メッシュを生成する。
AMBERを2次元および3次元の幾何学、古典物理学問題を含むデータセット、機械部品、人間の専門家メッシュを用いた実世界の産業デザインで評価する。
論文 参考訳(メタデータ) (2025-05-29T17:10:44Z) - On Geometry-Enhanced Parameter-Efficient Fine-Tuning for 3D Scene Segmentation [52.96632954620623]
本稿では3Dポイント・クラウド・トランス用に設計された新しい幾何対応PEFTモジュールを提案する。
当社のアプローチでは,大規模3Dポイントクラウドモデルの効率的,スケーラブル,かつ幾何を考慮した微調整のための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2025-05-28T15:08:36Z) - TSGaussian: Semantic and Depth-Guided Target-Specific Gaussian Splatting from Sparse Views [18.050257821756148]
TSGaussianは、新しいビュー合成タスクにおける幾何学的劣化を避けるために、意味的制約と深さ事前の制約を組み合わせる新しいフレームワークである。
提案手法は,バックグラウンドアロケーションを最小化しながら,指定された目標に対する計算資源の優先順位付けを行う。
大規模な実験により、TSGaussianは3つの標準データセット上で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-13T11:26:38Z) - Lightweight Deep Learning Framework for Accurate Particle Flow Energy Reconstruction [8.598010350935596]
本稿では,ディープラーニング再構築の枠組みを体系的に評価する。
重み付き平均2乗と誤差構造類似度指数を組み合わせたハイブリッド損失関数を設計する。
我々は,モーダル時間的相関とエネルギー変位非線形性を捉えるモデルの能力を強化する。
論文 参考訳(メタデータ) (2024-10-08T11:49:18Z) - Double-Shot 3D Shape Measurement with a Dual-Branch Network for Structured Light Projection Profilometry [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できる。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Deep Active Surface Models [60.027353171412216]
アクティブサーフェスモデルは複雑な3次元表面をモデル化するのに有用な長い歴史を持っているが、ディープネットワークと組み合わせて使用されるのはアクティブ・コンターのみである。
グラフ畳み込みネットワークにシームレスに統合して、洗練された滑らかさを強制できるレイヤを導入します。
論文 参考訳(メタデータ) (2020-11-17T18:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。