論文の概要: Transferable End-to-end Room Layout Estimation via Implicit Encoding
- arxiv url: http://arxiv.org/abs/2112.11340v1
- Date: Tue, 21 Dec 2021 16:33:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 14:09:17.624491
- Title: Transferable End-to-end Room Layout Estimation via Implicit Encoding
- Title(参考訳): 暗黙エンコーディングによるエンドツーエンドルームレイアウト推定
- Authors: Hao Zhao, Rene Ranftl, Yurong Chen, Hongbin Zha
- Abstract要約: 一つのパノラマ画像から部屋のレイアウトを推定する問題について検討する。
入力パノラマ画像からパラメトリックレイアウトを直接予測するエンドツーエンド手法を提案する。
- 参考スコア(独自算出の注目度): 34.99591465853653
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the problem of estimating room layouts from a single panorama image.
Most former works have two stages: feature extraction and parametric model
fitting. Here we propose an end-to-end method that directly predicts parametric
layouts from an input panorama image. It exploits an implicit encoding
procedure that embeds parametric layouts into a latent space. Then learning a
mapping from images to this latent space makes end-to-end room layout
estimation possible. However end-to-end methods have several notorious
drawbacks despite many intriguing properties. A widely raised criticism is that
they are troubled with dataset bias and do not transfer to unfamiliar domains.
Our study echos this common belief. To this end, we propose to use semantic
boundary prediction maps as an intermediate domain. It brings significant
performance boost on four benchmarks (Structured3D, PanoContext, S3DIS, and
Matterport3D), notably in the zero-shot transfer setting. Code, data, and
models will be released.
- Abstract(参考訳): 単一パノラマ画像から部屋レイアウト推定の問題点について検討する。
以前の作品の多くは特徴抽出とパラメトリックモデルフィッティングという2つの段階がある。
本稿では,入力パノラマ画像からパラメトリックレイアウトを直接予測するエンドツーエンド手法を提案する。
パラメトリックレイアウトを潜在空間に埋め込む暗黙的な符号化手順を利用する。
そして、画像からこの潜在空間へのマッピングを学ぶことで、エンドツーエンドのルームレイアウト推定が可能になる。
しかし、多くの興味深い性質にもかかわらず、エンドツーエンドの手法にはいくつかの悪名高い欠点がある。
広く批判されているのは、データセットバイアスに悩まされ、馴染みのないドメインに転送されないことだ。
私たちの研究はこの共通の信念を反映している。
この目的のために,中間領域として意味境界予測マップを用いることを提案する。
これにより、4つのベンチマーク(Structured3D、PanoContext、S3DIS、Matterport3D)で大幅なパフォーマンス向上を実現している。
コード、データ、モデルがリリースされます。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - Neural Semantic Surface Maps [52.61017226479506]
本稿では,2つの属とゼロの形状の地図を自動計算する手法を提案する。
提案手法は,手動のアノテーションや3Dトレーニングデータ要求を排除し,意味的表面-表面マップを生成する。
論文 参考訳(メタデータ) (2023-09-09T16:21:56Z) - Disentangling Orthogonal Planes for Indoor Panoramic Room Layout
Estimation with Cross-Scale Distortion Awareness [38.096482841789275]
複素シーンから平面を前分割することで1次元表現を解き放つことを提案する。
床の境界と天井の境界の対称性を考えると,ソフトフリップ融合戦略も設計する。
4つの人気のあるベンチマークの実験は、既存のSoTAソリューションよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-03-02T05:10:23Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Self-supervised 360$^{\circ}$ Room Layout Estimation [20.062713286961326]
ラベル付きデータを使わずにパノラマ的な部屋配置推定モデルを訓練するための,最初の自己教師方式を提案する。
弊社のアプローチでは、データ共有シナリオとアクティブラーニングにおける有望なソリューションも示しています。
論文 参考訳(メタデータ) (2022-03-30T04:58:07Z) - OmniLayout: Room Layout Reconstruction from Indoor Spherical Panoramas [16.38156002774853]
単一のRGBパノラマを考えると、3Dレイアウトの再構築の目的は、コーナー、境界、天井境界を予測して部屋のレイアウトを推定することです。
一般的なアプローチは、標準的な畳み込みネットワークを使用してコーナーと境界を予測し、3Dレイアウトを生成するための後処理を行うことでした。
我々は球面上で直接畳み込みを行う球面畳み込みを用いて、等角射影に従ってサンプリングすることを提案する。
論文 参考訳(メタデータ) (2021-04-19T15:44:10Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z) - General 3D Room Layout from a Single View by Render-and-Compare [36.94817376590415]
一つの視点から部屋の3次元レイアウトを再構築する新しい手法を提案する。
データセットはScanNetの293の画像で構成されており、正確な3Dレイアウトで注釈を付けました。
論文 参考訳(メタデータ) (2020-01-07T16:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。