論文の概要: An End-to-End Room Geometry Constrained Depth Estimation Framework for Indoor Panorama Images
- arxiv url: http://arxiv.org/abs/2510.07817v1
- Date: Thu, 09 Oct 2025 05:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.894221
- Title: An End-to-End Room Geometry Constrained Depth Estimation Framework for Indoor Panorama Images
- Title(参考訳): 室内パノラマ画像の奥行き推定フレームワーク
- Authors: Kanglin Ning, Ruzhao Chen, Penghong Wang, Xingtao Wang, Ruiqin Xiong, Xiaopeng Fan,
- Abstract要約: 既存の手法ではピクセルレベルの精度に重点を置いており、部屋の角が乱れ、ノイズ感度が低下する。
室内形状制約に基づく奥行き推定フレームワークを提案する。
本フレームワークには,部屋形状に基づく背景深度解決戦略と,背景分割誘導型融合機構の2つの戦略が組み込まれている。
- 参考スコア(独自算出の注目度): 50.84536164535991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting spherical pixel depth from monocular $360^{\circ}$ indoor panoramas is critical for many vision applications. However, existing methods focus on pixel-level accuracy, causing oversmoothed room corners and noise sensitivity. In this paper, we propose a depth estimation framework based on room geometry constraints, which extracts room geometry information through layout prediction and integrates those information into the depth estimation process through background segmentation mechanism. At the model level, our framework comprises a shared feature encoder followed by task-specific decoders for layout estimation, depth estimation, and background segmentation. The shared encoder extracts multi-scale features, which are subsequently processed by individual decoders to generate initial predictions: a depth map, a room layout map, and a background segmentation map. Furthermore, our framework incorporates two strategies: a room geometry-based background depth resolving strategy and a background-segmentation-guided fusion mechanism. The proposed room-geometry-based background depth resolving strategy leverages the room layout and the depth decoder's output to generate the corresponding background depth map. Then, a background-segmentation-guided fusion strategy derives fusion weights for the background and coarse depth maps from the segmentation decoder's predictions. Extensive experimental results on the Stanford2D3D, Matterport3D and Structured3D datasets show that our proposed methods can achieve significantly superior performance than current open-source methods. Our code is available at https://github.com/emiyaning/RGCNet.
- Abstract(参考訳): 屋内パノラマ画像から球面の深度を予測することは、多くの視覚的応用に不可欠です。
しかし、既存の手法ではピクセルレベルの精度に重点を置いており、部屋の角が乱れ、ノイズ感度が低下する。
本稿では,部屋形状制約に基づく奥行き推定フレームワークを提案し,レイアウト予測により部屋形状情報を抽出し,背景分割機構を用いて奥行き推定プロセスに統合する。
モデルレベルでは、我々のフレームワークは共有機能エンコーダと、レイアウト推定、深さ推定、バックグラウンドセグメンテーションのためのタスク固有のデコーダから構成される。
共有エンコーダは、その後個々のデコーダによって処理され、デプスマップ、ルームレイアウトマップ、バックグラウンドセグメンテーションマップといった初期予測を生成する。
さらに,このフレームワークには,部屋形状に基づく背景深度解決戦略と,背景分割誘導型融合機構の2つの戦略が組み込まれている。
提案手法では,室内レイアウトと奥行きデコーダの出力を利用して背景深度マップを生成する。
そして、背景分割誘導融合戦略は、背景の融合重みを導出し、セグメント化デコーダの予測から粗い深度マップを導出する。
スタンフォード2D3D,Matterport3D,Structured3Dデータセットの大規模な実験結果から,提案手法は現在のオープンソース手法よりもはるかに優れた性能が得られることが示された。
私たちのコードはhttps://github.com/emiyaning/RGCNetで利用可能です。
関連論文リスト
- Detail-aware multi-view stereo network for depth estimation [4.8203572077041335]
粗大なフレームワークを用いた細部対応多視点ステレオネットワーク(DA-MVSNet)を提案する。
粗い段階で隠された幾何学的深さの手がかりを用いて、幾何学的構造関係を維持する。
DTU と Tanks & Temples のデータセットを用いた実験により,本手法が競争力を発揮することを示す。
論文 参考訳(メタデータ) (2025-03-31T03:23:39Z) - Refinement of Monocular Depth Maps via Multi-View Differentiable Rendering [6.372979654151044]
現在の最先端のモノクル深度推定器は、広範囲なデータセットで訓練され、よく一般化されているが、多くのアプリケーションに必要な3D一貫性が欠如している。
本稿では,これらの一般化単分子深度推定手法の強度を多視点データと組み合わせ,これを解析・合成最適化問題としてフレーミングする。
提案手法は,室内シナリオの難易度においても,詳細な,高品質なビュー一貫性のある,正確な深度マップを生成でき,また,そのようなデータセット上での最先端のマルチビュー深度再構成手法よりも優れる。
論文 参考訳(メタデータ) (2024-10-04T18:50:28Z) - Constraining Depth Map Geometry for Multi-View Stereo: A Dual-Depth
Approach with Saddle-shaped Depth Cells [23.345139129458122]
同じ深度予測誤差を用いても、異なる深度ジオメトリには大きな性能ギャップがあることが示される。
サドル形状のセルからなる理想的な深度幾何学を導入し, 予測深度マップは地表面を上下に振動する。
また,本手法は,MVSにおける深度幾何学の新たな研究方向を示す。
論文 参考訳(メタデータ) (2023-07-18T11:37:53Z) - P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior [133.76192155312182]
本研究では,コプラナー画素からの情報を選択的に活用して予測深度を改善する手法を提案する。
本手法の広範な評価により, 教師付き単分子深度推定法において, 新たな手法の確立が期待できる。
論文 参考訳(メタデータ) (2022-04-05T10:03:52Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - LED2-Net: Monocular 360 Layout Estimation via Differentiable Depth
Rendering [59.63979143021241]
パノラマの地平線上での深度予測問題として360度レイアウト推定のタスクを定式化する。
レイアウトから深度予測への変換を区別できるように、差分可能な深度レンダリング手順を提案します。
提案手法は,360 レイアウトのベンチマークデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T15:48:41Z) - Attention Aware Cost Volume Pyramid Based Multi-view Stereo Network for
3D Reconstruction [12.728154351588053]
マルチビュー画像から3次元再構成を行うための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
高分解能深度を実現するために粗粒度深度推論戦略を導入する。
論文 参考訳(メタデータ) (2020-11-25T13:34:11Z) - GeoLayout: Geometry Driven Room Layout Estimation Based on Depth Maps of
Planes [18.900646770506256]
レイアウト推定のための深層学習に幾何学的推論を取り入れることを提案する。
提案手法では,画素レベルの表面パラメータを推定することにより,シーン内の支配面の深さマップを推測する。
支配平面の画素レベル深度アノテーションを用いた新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-08-14T10:34:24Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。