論文の概要: PixCuboid: Room Layout Estimation from Multi-view Featuremetric Alignment
- arxiv url: http://arxiv.org/abs/2508.04659v1
- Date: Wed, 06 Aug 2025 17:27:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.847336
- Title: PixCuboid: Room Layout Estimation from Multi-view Featuremetric Alignment
- Title(参考訳): PixCuboid:マルチビュー特徴量アライメントによる部屋レイアウト推定
- Authors: Gustav Hanning, Kalle Åström, Viktor Larsson,
- Abstract要約: PixCuboidは,キュービイド形状の部屋配置推定のための最適化手法である。
エンド・ツー・エンドの最適化でトレーニングすることで、大きな収束盆地と滑らかなロスランドスケープを生み出す特徴写像を学習する。
徹底的な実験では、我々のアプローチを検証し、競争を著しく上回っている。
- 参考スコア(独自算出の注目度): 26.610824644310846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coarse room layout estimation provides important geometric cues for many downstream tasks. Current state-of-the-art methods are predominantly based on single views and often assume panoramic images. We introduce PixCuboid, an optimization-based approach for cuboid-shaped room layout estimation, which is based on multi-view alignment of dense deep features. By training with the optimization end-to-end, we learn feature maps that yield large convergence basins and smooth loss landscapes in the alignment. This allows us to initialize the room layout using simple heuristics. For the evaluation we propose two new benchmarks based on ScanNet++ and 2D-3D-Semantics, with manually verified ground truth 3D cuboids. In thorough experiments we validate our approach and significantly outperform the competition. Finally, while our network is trained with single cuboids, the flexibility of the optimization-based approach allow us to easily extend to multi-room estimation, e.g. larger apartments or offices. Code and model weights are available at https://github.com/ghanning/PixCuboid.
- Abstract(参考訳): 粗い部屋配置推定は、多くの下流タスクに重要な幾何学的手がかりを提供する。
現在の最先端の手法は、主に単一のビューに基づいており、しばしばパノラマ画像を仮定する。
密集深度特徴の多視点アライメントをベースとした,立方体形状の部屋配置推定のための最適化手法PixCuboidを紹介する。
エンド・ツー・エンドの最適化を用いてトレーニングすることで,アライメントにおける大きな収束盆地と滑らかな損失景観をもたらす特徴写像を学習する。
これにより、単純なヒューリスティックを使って部屋のレイアウトを初期化できます。
評価のために,ScanNet++と2D-3D-Semanticsに基づく2つの新しいベンチマークを提案する。
徹底的な実験では、我々のアプローチを検証し、競争を著しく上回っている。
最後に、我々のネットワークは単一のキューブで訓練されているが、最適化ベースのアプローチの柔軟性により、より大規模なアパートやオフィスなど、簡単にマルチルームの見積もりに拡張できる。
コードとモデルの重み付けはhttps://github.com/ghanning/PixCuboid.comで確認できる。
関連論文リスト
- PanSt3R: Multi-view Consistent Panoptic Segmentation [10.781185925397493]
我々は、本質的には3Dとマルチビューの問題に対する2次元パノプティクスのセグメンテーションに頼ることが、おそらく最適であると主張している。
そこで我々はPanSt3Rと統合されたアプローチを提案し,テスト時間最適化の必要性を排除した。
PanSt3Rは概念的にはシンプルだが高速でスケーラブルで、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T15:02:00Z) - LinPrim: Linear Primitives for Differentiable Volumetric Rendering [53.780682194322225]
線形プリミティブに基づく2つの新しいシーン表現を導入する。
我々はGPU上で効率的に動作する異なるオクタライザを提案する。
我々は最先端の手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2025-01-27T18:49:38Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - MCTS with Refinement for Proposals Selection Games in Scene
Understanding [32.92475660892122]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを適用したシーン理解問題に適用可能な新しい手法を提案する。
提案手法は,提案された提案のプールから,目的語を最大化する提案を共同で選択し,最適化する。
本手法は,部屋配置に厳しい制約を加えることなく,Matterport3Dデータセット上で高い性能を示す。
論文 参考訳(メタデータ) (2022-07-07T10:15:54Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - Self-supervised Depth Estimation Leveraging Global Perception and
Geometric Smoothness Using On-board Videos [0.5276232626689566]
我々は,グローバルな特徴と局所的な特徴を同時に抽出する画素ワイド深度推定のためのDLNetを提案する。
幾何学的に自然な深度マップを予測するために3次元形状の滑らかさ損失を提案する。
KITTIとMake3Dベンチマークの実験では、提案したDLNetは最先端の手法と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-06-07T10:53:27Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Joint Multi-Dimension Pruning via Numerical Gradient Update [120.59697866489668]
本稿では,空間,深さ,チャネルの3つの重要な側面において,ネットワークを同時に切断する方法であるジョイント・マルチディメンジョン・プルーニング(ジョイント・プルーニング)を提案する。
本手法は,1つのエンドツーエンドトレーニングにおいて3次元にわたって協調的に最適化され,従来よりも効率がよいことを示す。
論文 参考訳(メタデータ) (2020-05-18T17:57:09Z) - General 3D Room Layout from a Single View by Render-and-Compare [36.94817376590415]
一つの視点から部屋の3次元レイアウトを再構築する新しい手法を提案する。
データセットはScanNetの293の画像で構成されており、正確な3Dレイアウトで注釈を付けました。
論文 参考訳(メタデータ) (2020-01-07T16:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。