論文の概要: 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception
- arxiv url: http://arxiv.org/abs/2312.16268v2
- Date: Thu, 29 Aug 2024 01:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 19:28:43.947467
- Title: 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception
- Title(参考訳): 直交平面交絡と多視点幾何整合知覚による360レイアウト推定
- Authors: Zhijie Shen, Chunyu Lin, Junsong Zhang, Lang Nie, Kang Liao, Yao Zhao,
- Abstract要約: 既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
- 参考スコア(独自算出の注目度): 56.84921040837699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing panoramic layout estimation solutions tend to recover room boundaries from a vertically compressed sequence, yielding imprecise results as the compression process often muddles the semantics between various planes. Besides, these data-driven approaches impose an urgent demand for massive data annotations, which are laborious and time-consuming. For the first problem, we propose an orthogonal plane disentanglement network (termed DOPNet) to distinguish ambiguous semantics. DOPNet consists of three modules that are integrated to deliver distortion-free, semantics-clean, and detail-sharp disentangled representations, which benefit the subsequent layout recovery. For the second problem, we present an unsupervised adaptation technique tailored for horizon-depth and ratio representations. Concretely, we introduce an optimization strategy for decision-level layout analysis and a 1D cost volume construction method for feature-level multi-view aggregation, both of which are designed to fully exploit the geometric consistency across multiple perspectives. The optimizer provides a reliable set of pseudo-labels for network training, while the 1D cost volume enriches each view with comprehensive scene information derived from other perspectives. Extensive experiments demonstrate that our solution outperforms other SoTA models on both monocular layout estimation and multi-view layout estimation tasks. Cobe can be available at https://github.com/zhijieshen-bjtu/MV-DOPNet.
- Abstract(参考訳): 既存のパノラマ配置推定ソリューションは、垂直に圧縮されたシーケンスから部屋の境界を復元する傾向があり、圧縮過程が様々な平面間のセマンティクスを混乱させるため、不正確な結果をもたらす。
さらに、これらのデータ駆動アプローチは、膨大なデータアノテーションを緊急に要求する。
まず,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
DOPNetは、歪みのないセマンティックスクリーンな表現を提供するために統合された3つのモジュールで構成される。
2つ目の問題として、水平深度と比表現に適した教師なし適応手法を提案する。
具体的には,複数視点にまたがる幾何的整合性を完全に活用するために,決定レベルレイアウト解析のための最適化戦略と特徴レベル多視点集約のための1次元コストボリューム構築手法を導入する。
このオプティマイザは、ネットワークトレーニングのための信頼性の高い擬似ラベルセットを提供する一方、1Dコストボリュームは他の視点から派生した総合的なシーン情報で各ビューを豊かにする。
大規模実験により,本手法は単分子配置推定と多視点レイアウト推定の両方において,他のSoTAモデルよりも優れていることが示された。
Cobeはhttps://github.com/zhijieshen-bjtu/MV-DOPNet.comで入手できる。
関連論文リスト
- SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical
Refinement and EM optimization [6.886220026399106]
テクスチャレス領域の3次元再構成における課題を解決するために,多視点ステレオ (SD-MVS) を導入する。
私たちは、シーン内のセグメンテーションインスタンスを区別するためにSAM(Segment Anything Model)を採用した最初の人です。
球面座標と正規点の勾配勾配と深度の画素方向探索間隔を組み合わせた独自の精細化戦略を提案する。
論文 参考訳(メタデータ) (2024-01-12T05:25:57Z) - X-PDNet: Accurate Joint Plane Instance Segmentation and Monocular Depth
Estimation with Cross-Task Distillation and Boundary Correction [9.215384107659665]
X-PDNetは平面インスタンス分割と深さ推定のマルチタスク学習のためのフレームワークである。
我々は、境界回帰損失を増大させるために、基底真理境界を用いることの現在の限界を強調した。
境界領域分割を支援するために深度情報を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T14:27:54Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z) - Self-supervised Depth Estimation Leveraging Global Perception and
Geometric Smoothness Using On-board Videos [0.5276232626689566]
我々は,グローバルな特徴と局所的な特徴を同時に抽出する画素ワイド深度推定のためのDLNetを提案する。
幾何学的に自然な深度マップを予測するために3次元形状の滑らかさ損失を提案する。
KITTIとMake3Dベンチマークの実験では、提案したDLNetは最先端の手法と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-06-07T10:53:27Z) - Weakly But Deeply Supervised Occlusion-Reasoned Parametric Layouts [87.370534321618]
複雑な道路シーンのRGBイメージをインプットとして単一の視点で捉えたエンドツーエンドのネットワークを提案し、パースペクティブ空間における閉塞性のあるレイアウトを創出する。
私たちのメソッドで必要とされる唯一の人間のアノテーションは、より安価で入手しにくいパラメトリック属性です。
私たちは、KITTIとNuScenesという2つの公開データセットのアプローチを検証し、人間の監督を大幅に低下させることで、最先端の結果を実現します。
論文 参考訳(メタデータ) (2021-04-14T09:32:29Z) - LED2-Net: Monocular 360 Layout Estimation via Differentiable Depth
Rendering [59.63979143021241]
パノラマの地平線上での深度予測問題として360度レイアウト推定のタスクを定式化する。
レイアウトから深度予測への変換を区別できるように、差分可能な深度レンダリング手順を提案します。
提案手法は,360 レイアウトのベンチマークデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T15:48:41Z) - Joint Multi-Dimension Pruning via Numerical Gradient Update [120.59697866489668]
本稿では,空間,深さ,チャネルの3つの重要な側面において,ネットワークを同時に切断する方法であるジョイント・マルチディメンジョン・プルーニング(ジョイント・プルーニング)を提案する。
本手法は,1つのエンドツーエンドトレーニングにおいて3次元にわたって協調的に最適化され,従来よりも効率がよいことを示す。
論文 参考訳(メタデータ) (2020-05-18T17:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。