論文の概要: P$^{2}$Net: Patch-match and Plane-regularization for Unsupervised Indoor
Depth Estimation
- arxiv url: http://arxiv.org/abs/2007.07696v1
- Date: Wed, 15 Jul 2020 14:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 06:03:06.194658
- Title: P$^{2}$Net: Patch-match and Plane-regularization for Unsupervised Indoor
Depth Estimation
- Title(参考訳): P$^{2}$Net: 教師なし屋内深度推定のためのパッチマッチと平面正規化
- Authors: Zehao Yu, Lei Jin, and Shenghua Gao
- Abstract要約: 本稿では,屋内環境における教師なし深度推定課題に取り組む。
論文は、貧弱なパフォーマンスは差別的でない点ベースのマッチングに苦しむと主張している。
NYUv2とScanNetの実験では、P$2$Netは既存のアプローチよりも大きなマージンで優れています。
- 参考スコア(独自算出の注目度): 37.95666188829359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles the unsupervised depth estimation task in indoor
environments. The task is extremely challenging because of the vast areas of
non-texture regions in these scenes. These areas could overwhelm the
optimization process in the commonly used unsupervised depth estimation
framework proposed for outdoor environments. However, even when those regions
are masked out, the performance is still unsatisfactory. In this paper, we
argue that the poor performance suffers from the non-discriminative point-based
matching. To this end, we propose P$^2$Net. We first extract points with large
local gradients and adopt patches centered at each point as its representation.
Multiview consistency loss is then defined over patches. This operation
significantly improves the robustness of the network training. Furthermore,
because those textureless regions in indoor scenes (e.g., wall, floor, roof,
\etc) usually correspond to planar regions, we propose to leverage superpixels
as a plane prior. We enforce the predicted depth to be well fitted by a plane
within each superpixel. Extensive experiments on NYUv2 and ScanNet show that
our P$^2$Net outperforms existing approaches by a large margin. Code is
available at \url{https://github.com/svip-lab/Indoor-SfMLearner}.
- Abstract(参考訳): 本稿では屋内環境における教師なし深度推定課題に取り組む。
これらのシーンでは、非テクスチャ領域が広大なため、この作業は非常に難しい。
これらの領域は、屋外環境向けに提案された非教師なし深度推定フレームワークにおいて最適化プロセスに圧倒される可能性がある。
しかし、これらの領域が隠されている場合でも、その性能は満足できない。
本稿では,性能の低下は非差別的ポイントベースマッチングに苦しむと主張する。
この目的のために、P$^2$Netを提案する。
まず,局所勾配が大きい点を抽出し,各点を中心とするパッチを表現として採用する。
マルチビュー一貫性損失はパッチ上で定義される。
この操作はネットワークトレーニングの堅牢性を大幅に向上させる。
また, 室内シーンのテクスチャレス領域(壁, 床, 屋根, \etcなど)は, 通常は平面領域に対応するため, 先行した平面としてスーパーピクセルを活用することを提案する。
予測深度を各スーパーピクセル内の平面によく適合するように強制する。
NYUv2とScanNetの大規模な実験は、我々のP$^2$Netが既存のアプローチよりも大きなマージンで優れていることを示している。
コードは \url{https://github.com/svip-lab/indoor-sfmlearner} で入手できる。
関連論文リスト
- NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - VA-DepthNet: A Variational Approach to Single Image Depth Prediction [163.14849753700682]
VA-DepthNetは、単一画像深度予測問題に対する単純で効果的で正確なディープニューラルネットワークアプローチである。
本論文は,複数のベンチマークデータセットに対する広範囲な評価とアブレーション解析により提案手法の有用性を実証する。
論文 参考訳(メタデータ) (2023-02-13T17:55:58Z) - When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - Monocular Depth Distribution Alignment with Low Computation [15.05244258071472]
我々は、軽量ネットワークと重軽量ネットワークの精度コントラストの大部分をモデル化する。
DANetは2つの領域ごとに深度の特徴の違いを知覚することにより、合理的なシーン構造を予測する傾向にある。
DANetは、深さ分布形状とシーン深度範囲のアライメントにより、分布のドリフトを著しく軽減し、従来の重み付け手法と同等の性能を達成する。
論文 参考訳(メタデータ) (2022-03-09T06:18:26Z) - PLNet: Plane and Line Priors for Unsupervised Indoor Depth Estimation [15.751045404065465]
本稿では,平面と直線の先行値を利用して深度推定を行うPLNetを提案する。
NYU Depth V2とScanNetの実験では、PLNetが既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2021-10-12T09:02:24Z) - StructDepth: Leveraging the structural regularities for self-supervised
indoor depth estimation [7.028319464940422]
自己教師付き単分子深度推定は、屋外データセットで印象的な性能を達成した。
しかし、その性能はテクスチャが不足しているため、特に屋内環境では劣化する。
屋内のシーンに現れる構造的規則性を活用して、より深いネットワークをトレーニングします。
論文 参考訳(メタデータ) (2021-08-19T09:26:13Z) - Boundary-induced and scene-aggregated network for monocular depth
prediction [20.358133522462513]
本稿では,1枚のRGB画像の深度を推定するための境界誘導・Scene-aggregated Network (BS-Net)を提案する。
NYUD v2データセットとxffthe iBims-1データセットに関するいくつかの実験結果は、提案手法の最先端性能を示している。
論文 参考訳(メタデータ) (2021-02-26T01:43:17Z) - Deep Depth Estimation from Visual-Inertial SLAM [11.814395824799988]
視覚-慣性同時局在マッピングシステム(VI-SLAM)を用いてスパース深度を計算した症例について検討した。
結果として生じる点雲は密度が低く、ノイズがあり、一様でない空間分布を持つ。
我々は、VI-SLAMから得られる重力推定値を用いて、トレーニングデータセットで一般的な向きに入力画像をワープする。
論文 参考訳(メタデータ) (2020-07-31T21:28:25Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z) - Depth Based Semantic Scene Completion with Position Importance Aware
Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。
詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。
オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文 参考訳(メタデータ) (2020-01-29T07:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。