論文の概要: Layout Anything: One Transformer for Universal Room Layout Estimation
- arxiv url: http://arxiv.org/abs/2512.02952v1
- Date: Tue, 02 Dec 2025 17:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.979562
- Title: Layout Anything: One Transformer for Universal Room Layout Estimation
- Title(参考訳): Layout Anything:Universal Room Layout Estimationのための1つの変圧器
- Authors: Md Sohag Mia, Muhammad Abdullah Adnan,
- Abstract要約: 本論文では,OneFormerのユニバーサルセグメンテーションアーキテクチャを幾何学的構造予測に適用した屋内レイアウト推定のためのトランスフォーマーベースのフレームワークを提案する。
提案手法は,OneFormerのタスク条件付きクエリとコントラスト学習を,(1)トポロジカル・アウェア・トランスフォーメーション(トポロジカル・アウェア・トランスフォーメーション)を通じてマンハッタン世界の制約を保ちながらトレーニングデータを増強するレイアウトデジェネレーション戦略,(2)トレーニング中の一貫性と境界予測を直接実施する幾何学的損失の2つの重要なモジュールと統合する。
- 参考スコア(独自算出の注目度): 0.790660895390689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Layout Anything, a transformer-based framework for indoor layout estimation that adapts the OneFormer's universal segmentation architecture to geometric structure prediction. Our approach integrates OneFormer's task-conditioned queries and contrastive learning with two key modules: (1) a layout degeneration strategy that augments training data while preserving Manhattan-world constraints through topology-aware transformations, and (2) differentiable geometric losses that directly enforce planar consistency and sharp boundary predictions during training. By unifying these components in an end-to-end framework, the model eliminates complex post-processing pipelines while achieving high-speed inference at 114ms. Extensive experiments demonstrate state-of-the-art performance across standard benchmarks, with pixel error (PE) of 5.43% and corner error (CE) of 4.02% on the LSUN, PE of 7.04% (CE 5.17%) on the Hedau and PE of 4.03% (CE 3.15%) on the Matterport3D-Layout datasets. The framework's combination of geometric awareness and computational efficiency makes it particularly suitable for augmented reality applications and large-scale 3D scene reconstruction tasks.
- Abstract(参考訳): 本稿では,OneFormerのユニバーサルセグメンテーションアーキテクチャを幾何学的構造予測に適用する,屋内レイアウト推定のためのトランスフォーマーベースのフレームワークであるLayout Anythingを紹介する。
提案手法は,OneFormerのタスク条件付きクエリとコントラスト学習を,(1)トポロジカル・アウェア・トランスフォーメーション(トポロジカル・アウェア・トランスフォーメーション)を通じてマンハッタン世界の制約を保ちながらトレーニングデータを増強するレイアウトデジェネレーション戦略,(2)トレーニング中に平面整合性や鋭い境界予測を直接実施する幾何学的損失の2つの重要なモジュールと統合する。
これらのコンポーネントをエンドツーエンドのフレームワークに統合することにより、モデルは複雑な後処理パイプラインを排除し、114msで高速な推論を実現する。
大規模な実験では、標準ベンチマークにおける最先端のパフォーマンスが実証されており、ピクセルエラー(PE)は5.43%、コーナーエラー(CE)はLSUNで4.02%、PEは7.04%(CE 5.17%)、PEはHedauで4.03%(CE 3.15%)、PEはMatterport3D-Layoutデータセットで4.03%(CE 3.15%)である。
このフレームワークは、幾何学的認識と計算効率の組み合わせにより、拡張現実アプリケーションや大規模3Dシーン再構築タスクに特に適している。
関連論文リスト
- MitUNet: Enhancing Floor Plan Recognition using a Hybrid Mix-Transformer and U-Net Architecture [0.0]
壁分割タスクに特化して設計されたハイブリッドニューラルネットワークアーキテクチャであるMitUNetを紹介する。
MitUNetでは、階層型Mix-Transformerエンコーダを用いて、グローバルコンテキストをキャプチャし、ScSEアテンションブロックで拡張されたU-Netデコーダを用いて正確な境界回復を行う。
論文 参考訳(メタデータ) (2025-12-02T04:47:53Z) - DisCo-Layout: Disentangling and Coordinating Semantic and Physical Refinement in a Multi-Agent Framework for 3D Indoor Layout Synthesis [76.7196710324494]
3次元屋内レイアウト合成は仮想環境構築に不可欠である。
DisCoは、物理的および意味的な洗練を歪め、調整する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T16:30:37Z) - H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction [39.22287224290769]
H3Rは、潜在融合と注目に基づく機能集約を統合するハイブリッドフレームワークである。
両パラダイムを統合することで,既存手法よりも2$times$高速に収束しながら,一般化が促進される。
本手法は,ロバストなクロスデータセットの一般化を実証しながら,可変数および高分解能な入力ビューをサポートする。
論文 参考訳(メタデータ) (2025-08-05T05:56:30Z) - 3D Face Reconstruction Error Decomposed: A Modular Benchmark for Fair and Fast Method Evaluation [30.625439879741847]
M3DFB (Modularized 3D Face Restruction Benchmark) のためのツールキットを提案する。
エラーの基本成分は分離され交換可能であり、それぞれの効果を定量化することができる。
そこで本研究では,メッシュトポロジの不整合性に対して計算効率の良い手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T15:28:43Z) - Semantic Segmentation and Scene Reconstruction of RGB-D Image Frames: An End-to-End Modular Pipeline for Robotic Applications [0.7951977175758216]
従来のRGB-D処理パイプラインは主に幾何学的再構成に焦点を当てている。
セマンティックセグメンテーション、ヒューマントラッキング、ポイントクラウド融合、シーン再構築を統合した、新しいエンドツーエンドのモジュールパイプラインを導入する。
我々は、ベンチマークデータセットと現実世界のKinect RGB-Dデータにアプローチを検証し、効率、精度、ユーザビリティを改善した。
論文 参考訳(メタデータ) (2024-10-23T16:01:31Z) - 3D Geometric Shape Assembly via Efficient Point Cloud Matching [59.241448711254485]
Proxy Match Transform (PMT) は、部品の配向面間の信頼性の高いマッチングを可能にする、高次特徴変換層である。
PMT を基盤として,幾何学的組立作業のための新しいフレームワーク Proxy Match TransformeR (PMTR) を導入する。
我々は,Breaking Badの大規模3次元幾何形状集合ベンチマークデータセットを用いてPMTRの評価を行った。
論文 参考訳(メタデータ) (2024-07-15T08:50:02Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - SceneCAD: Predicting Object Alignments and Layouts in RGB-D Scans [24.06640371472068]
本稿では,コモディティRGB-Dセンサからスキャンした3D環境の軽量CADによる表現を再構築する手法を提案する。
私たちのキーとなるアイデアは、CADモデルのアライメントとスキャンされたシーンのレイアウト推定の両方を共同で最適化することです。
論文 参考訳(メタデータ) (2020-03-27T20:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。