論文の概要: GPR-Net: Multi-view Layout Estimation via a Geometry-aware Panorama
Registration Network
- arxiv url: http://arxiv.org/abs/2210.11419v2
- Date: Fri, 21 Oct 2022 14:26:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 11:03:59.437414
- Title: GPR-Net: Multi-view Layout Estimation via a Geometry-aware Panorama
Registration Network
- Title(参考訳): gpr-net:幾何認識パノラマ登録ネットワークによるマルチビューレイアウト推定
- Authors: Jheng-Wei Su, Chi-Han Peng, Peter Wonka, Hung-Kuo Chu
- Abstract要約: 一対のパノラマからパノラマ登録とレイアウト推定を共同で学習する完全パノラマレイアウト推定フレームワークを提案する。
PSMNetに対する大きな改善は、新しいGeometry-aware Panorama Registration Network(GPR-Net)によるものである。
実験結果から,大規模な屋内パノラマデータセットZInDにおけるパノラマ登録とレイアウト推定の両面での最先端性能が得られた。
- 参考スコア(独自算出の注目度): 44.06968418800436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing 3D layouts from multiple $360^{\circ}$ panoramas has received
increasing attention recently as estimating a complete layout of a large-scale
and complex room from a single panorama is very difficult. The state-of-the-art
method, called PSMNet, introduces the first learning-based framework that
jointly estimates the room layout and registration given a pair of panoramas.
However, PSMNet relies on an approximate (i.e., "noisy") registration as input.
Obtaining this input requires a solution for wide baseline registration which
is a challenging problem. In this work, we present a complete multi-view
panoramic layout estimation framework that jointly learns panorama registration
and layout estimation given a pair of panoramas without relying on a pose
prior. The major improvement over PSMNet comes from a novel Geometry-aware
Panorama Registration Network or GPR-Net that effectively tackles the wide
baseline registration problem by exploiting the layout geometry and computing
fine-grained correspondences on the layout boundaries, instead of the global
pixel-space. Our architecture consists of two parts. First, given two
panoramas, we adopt a vision transformer to learn a set of 1D horizon features
sampled on the panorama. These 1D horizon features encode the depths of
individual layout boundary samples and the correspondence and covisibility maps
between layout boundaries. We then exploit a non-linear registration module to
convert these 1D horizon features into a set of corresponding 2D boundary
points on the layout. Finally, we estimate the final relative camera pose via
RANSAC and obtain the complete layout simply by taking the union of registered
layouts. Experimental results indicate that our method achieves
state-of-the-art performance in both panorama registration and layout
estimation on a large-scale indoor panorama dataset ZInD.
- Abstract(参考訳): 1つのパノラマから大規模で複雑な部屋のレイアウトを推定するのは非常に難しいため、パノラマ360円から3Dレイアウトを再構築することは近年注目されている。
PSMNetと呼ばれる最先端の手法は、一対のパノラマを与えられた部屋のレイアウトと登録を共同で見積もる最初の学習ベースのフレームワークを導入する。
しかし、PSMNetは入力として近似的な (すなわち"ノイズ") 登録に依存している。
この入力を取得するには、幅広いベースライン登録のソリューションが必要です。
本研究では,パノラマの1対のパノラマが先行するポーズに依存することなく,パノラマ登録とレイアウト推定を共同で学習する多視点パノラマレイアウト推定フレームワークを提案する。
PSMNetに対する大きな改善は、ジオメトリ対応のパノラマ登録ネットワーク(GPR-Net)によって実現された。
私たちの建築は2つの部分からなる。
まず、2つのパノラマが与えられたとき、私たちは視覚変換器を採用してパノラマでサンプリングされた1次元水平方向の特徴を学習する。
これらの1次元地平線の特徴は、個々のレイアウト境界サンプルの深さとレイアウト境界間の対応と可視性マップを符号化する。
次に、非線形登録モジュールを用いて、これらの1次元水平特性をレイアウト上の対応する2次元境界点の集合に変換する。
最後に、RANSACを介して最終相対カメラのポーズを推定し、登録されたレイアウトを結合して完全なレイアウトを得る。
実験結果から,大規模な屋内パノラマデータセットZInDにおけるパノラマ登録とレイアウト推定の両面での最先端性能が得られた。
関連論文リスト
- DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - Multi-source Domain Adaptation for Panoramic Semantic Segmentation [22.367890439050786]
パノラマ的セマンティックセグメンテーションのためのマルチソースドメイン適応のための新しいタスクを提案する。
本研究の目的は, 実際のピンホール合成パノラマ画像の両方をソース領域で活用することであり, セグメンテーションモデルが未ラベルの実際のパノラマ画像に対して良好に動作できるようにすることである。
DTA4PASSはソースドメインのすべてのピンホール画像をパノラマのようなイメージに変換し、変換されたソースドメインをターゲットドメインに整列させる。
論文 参考訳(メタデータ) (2024-08-29T12:00:11Z) - Pano2Room: Novel View Synthesis from a Single Indoor Panorama [20.262621556667852]
Pano2Roomは、1枚のパノラマ画像から高品質な3D屋内シーンを自動的に再構築するように設計されている。
鍵となるアイデアは、最初に入力パノラマから予備メッシュを構築し、パノラマRGBDインペイントを使用して反復的にこのメッシュを洗練することである。
精巧なメッシュは3次元ガウス散乱場に変換され、収集された擬似ノベルビューで訓練される。
論文 参考訳(メタデータ) (2024-08-21T08:19:12Z) - Scaled 360 layouts: Revisiting non-central panoramas [5.2178708158547025]
非中央パノラマを用いた室内環境の3次元レイアウト復元手法を提案する。
我々は、新しい幾何学的処理において、非中央プロジェクションシステムの特性を利用して、スケールしたレイアウトを復元する。
論文 参考訳(メタデータ) (2024-02-02T14:55:36Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline
Panoramas [54.4948540627471]
広帯域パノラマのための一般化可能な球面放射場パノGRFを提案する。
パノGRFは、視線画像に基づいて訓練された一般化可能な放射場とは異なり、パノラマからパースペクティブへの変換から情報損失を回避する。
複数のパノラマデータセットの結果は、パノGRFが最先端の一般化可能なビュー合成法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2023-06-02T13:35:07Z) - PanoViT: Vision Transformer for Room Layout Estimation from a Single
Panoramic Image [11.053777620735175]
PanoViTはパノラマ視覚変換器で、1枚のパノラマ画像から部屋のレイアウトを推定する。
CNNモデルと比較して、私たちのPanoViTはパノラマ画像からグローバル情報を学ぶのに熟練しています。
本手法は,室内配置予測精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2022-12-23T05:37:11Z) - MVLayoutNet:3D layout reconstruction with multi-view panoramas [12.981269280023469]
MVNetは、マルチビューパノラマから総合的な3D再構成のためのエンドツーエンドネットワークである。
我々はレイアウトモジュールを共同でトレーニングし、初期レイアウトと新しいMVSモジュールを作成し、正確なレイアウト形状を得る。
本手法は,シーン全体の再構築を可能にする整合的なレイアウト形状を導出する。
論文 参考訳(メタデータ) (2021-12-12T03:04:32Z) - LED2-Net: Monocular 360 Layout Estimation via Differentiable Depth
Rendering [59.63979143021241]
パノラマの地平線上での深度予測問題として360度レイアウト推定のタスクを定式化する。
レイアウトから深度予測への変換を区別できるように、差分可能な深度レンダリング手順を提案します。
提案手法は,360 レイアウトのベンチマークデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T15:48:41Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。