論文の概要: 360 Layout Estimation via Orthogonal Planes Disentanglement and
Multi-view Geometric Consistency Perception
- arxiv url: http://arxiv.org/abs/2312.16268v1
- Date: Tue, 26 Dec 2023 12:16:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 20:18:40.918915
- Title: 360 Layout Estimation via Orthogonal Planes Disentanglement and
Multi-view Geometric Consistency Perception
- Title(参考訳): 直交平面交絡と多視点幾何整合知覚による360レイアウト推定
- Authors: Zhijie Shen, Chunyu Lin, Junsong Zhang, Lang Nie, Kang Liao, Yao Zhao
- Abstract要約: 既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元する傾向がある。
水平深度と比表現に適した教師なし適応手法を提案する。
また,決定レベルのレイアウト解析のための最適化手法と,特徴レベルのマルチビューアグリゲーションのための1次元コストボリューム構築手法も導入する。
- 参考スコア(独自算出の注目度): 60.23832277827669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing panoramic layout estimation solutions tend to recover room
boundaries from a vertically compressed sequence, yielding imprecise results as
the compression process often muddles the semantics between various planes.
Besides, these data-driven approaches impose an urgent demand for massive data
annotations, which are laborious and time-consuming. For the first problem, we
propose an orthogonal plane disentanglement network (termed DOPNet) to
distinguish ambiguous semantics. DOPNet consists of three modules that are
integrated to deliver distortion-free, semantics-clean, and detail-sharp
disentangled representations, which benefit the subsequent layout recovery. For
the second problem, we present an unsupervised adaptation technique tailored
for horizon-depth and ratio representations. Concretely, we introduce an
optimization strategy for decision-level layout analysis and a 1D cost volume
construction method for feature-level multi-view aggregation, both of which are
designed to fully exploit the geometric consistency across multiple
perspectives. The optimizer provides a reliable set of pseudo-labels for
network training, while the 1D cost volume enriches each view with
comprehensive scene information derived from other perspectives. Extensive
experiments demonstrate that our solution outperforms other SoTA models on both
monocular layout estimation and multi-view layout estimation tasks.
- Abstract(参考訳): 既存のパノラマ配置推定ソリューションは、垂直に圧縮されたシーケンスから部屋の境界を復元する傾向があり、圧縮過程が様々な平面間のセマンティクスを混乱させるため、不正確な結果をもたらす。
さらに、これらのデータ駆動アプローチは、労力と時間を要する膨大なデータアノテーションを緊急に要求します。
まず,不明瞭な意味論を識別するための直交平面不等角化ネットワーク(dopnet)を提案する。
DOPNetは、歪みのないセマンティックスクリーンな表現を提供するために統合された3つのモジュールで構成される。
第2の問題として,地平線深度と比表現に適した教師なし適応手法を提案する。
具体的には,複数視点にまたがる幾何的整合性を完全に活用するために,決定レベルレイアウト解析のための最適化戦略と特徴レベル多視点集約のための1次元コストボリューム構築手法を導入する。
オプティマイザはネットワークトレーニングのための信頼性の高い疑似ラベルを提供し、一方1dコストボリュームは、他の視点から得られた包括的なシーン情報で各ビューを豊かにする。
広範な実験により,単眼的レイアウト推定タスクと多視点レイアウト推定タスクの両方において,我々の解が他のsotaモデルよりも優れていることが証明された。
関連論文リスト
- SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical
Refinement and EM optimization [6.886220026399106]
テクスチャレス領域の3次元再構成における課題を解決するために,多視点ステレオ (SD-MVS) を導入する。
私たちは、シーン内のセグメンテーションインスタンスを区別するためにSAM(Segment Anything Model)を採用した最初の人です。
球面座標と正規点の勾配勾配と深度の画素方向探索間隔を組み合わせた独自の精細化戦略を提案する。
論文 参考訳(メタデータ) (2024-01-12T05:25:57Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - X-PDNet: Accurate Joint Plane Instance Segmentation and Monocular Depth
Estimation with Cross-Task Distillation and Boundary Correction [9.215384107659665]
X-PDNetは平面インスタンス分割と深さ推定のマルチタスク学習のためのフレームワークである。
我々は、境界回帰損失を増大させるために、基底真理境界を用いることの現在の限界を強調した。
境界領域分割を支援するために深度情報を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T14:27:54Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - PlaneRecNet: Multi-Task Learning with Cross-Task Consistency for
Piece-Wise Plane Detection and Reconstruction from a Single RGB Image [11.215334675788952]
ピアースワイドな3次元平面再構成は、特に屋内シナリオにおいて、人為的な環境の全体像の理解を提供する。
最新のアプローチは、高度なネットワークアーキテクチャを導入し、セグメンテーションと再構築結果の改善に重点を置いている。
マルチタスク畳み込みニューラルネットワークであるPlaneRecNetのクロスタスク一貫性の強化から始まります。
平面分割と深さ推定の精度を両立させる新しい損失関数(幾何学的制約)を導入する。
論文 参考訳(メタデータ) (2021-10-21T15:54:03Z) - Self-supervised Depth Estimation Leveraging Global Perception and
Geometric Smoothness Using On-board Videos [0.5276232626689566]
我々は,グローバルな特徴と局所的な特徴を同時に抽出する画素ワイド深度推定のためのDLNetを提案する。
幾何学的に自然な深度マップを予測するために3次元形状の滑らかさ損失を提案する。
KITTIとMake3Dベンチマークの実験では、提案したDLNetは最先端の手法と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-06-07T10:53:27Z) - Weakly But Deeply Supervised Occlusion-Reasoned Parametric Layouts [87.370534321618]
複雑な道路シーンのRGBイメージをインプットとして単一の視点で捉えたエンドツーエンドのネットワークを提案し、パースペクティブ空間における閉塞性のあるレイアウトを創出する。
私たちのメソッドで必要とされる唯一の人間のアノテーションは、より安価で入手しにくいパラメトリック属性です。
私たちは、KITTIとNuScenesという2つの公開データセットのアプローチを検証し、人間の監督を大幅に低下させることで、最先端の結果を実現します。
論文 参考訳(メタデータ) (2021-04-14T09:32:29Z) - LED2-Net: Monocular 360 Layout Estimation via Differentiable Depth
Rendering [59.63979143021241]
パノラマの地平線上での深度予測問題として360度レイアウト推定のタスクを定式化する。
レイアウトから深度予測への変換を区別できるように、差分可能な深度レンダリング手順を提案します。
提案手法は,360 レイアウトのベンチマークデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T15:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。