論文の概要: MonoIndoor++:Towards Better Practice of Self-Supervised Monocular Depth
Estimation for Indoor Environments
- arxiv url: http://arxiv.org/abs/2207.08951v1
- Date: Mon, 18 Jul 2022 21:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:43:10.283120
- Title: MonoIndoor++:Towards Better Practice of Self-Supervised Monocular Depth
Estimation for Indoor Environments
- Title(参考訳): MonoIndoor++:屋内環境における自己監督型単眼深度推定の実践に向けて
- Authors: Runze Li, Pan Ji, Yi Xu, Bir Bhanu
- Abstract要約: 自己監督型単分子深度推定は近年,特に屋外環境において顕著な進歩を遂げている。
しかし、既存のデータの大半を携帯端末で捉えている屋内シーンでは、深度予測結果は満足できない。
室内環境における自己教師型単眼深度推定の性能向上を目的とした,新しいフレームワーク-IndoorMono++を提案する。
- 参考スコア(独自算出の注目度): 45.89629401768049
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised monocular depth estimation has seen significant progress in
recent years, especially in outdoor environments. However, depth prediction
results are not satisfying in indoor scenes where most of the existing data are
captured with hand-held devices. As compared to outdoor environments,
estimating depth of monocular videos for indoor environments, using
self-supervised methods, results in two additional challenges: (i) the depth
range of indoor video sequences varies a lot across different frames, making it
difficult for the depth network to induce consistent depth cues for training;
(ii) the indoor sequences recorded with handheld devices often contain much
more rotational motions, which cause difficulties for the pose network to
predict accurate relative camera poses. In this work, we propose a novel
framework-MonoIndoor++ by giving special considerations to those challenges and
consolidating a set of good practices for improving the performance of
self-supervised monocular depth estimation for indoor environments. First, a
depth factorization module with transformer-based scale regression network is
proposed to estimate a global depth scale factor explicitly, and the predicted
scale factor can indicate the maximum depth values. Second, rather than using a
single-stage pose estimation strategy as in previous methods, we propose to
utilize a residual pose estimation module to estimate relative camera poses
across consecutive frames iteratively. Third, to incorporate extensive
coordinates guidance for our residual pose estimation module, we propose to
perform coordinate convolutional encoding directly over the inputs to pose
networks. The proposed method is validated on a variety of benchmark indoor
datasets, i.e., EuRoC MAV, NYUv2, ScanNet and 7-Scenes, demonstrating the
state-of-the-art performance.
- Abstract(参考訳): 自己教師付き単眼深度推定は近年,特に屋外環境において有意な進歩を遂げている。
しかし,既存のデータの多くがハンドヘルドデバイスでキャプチャされる屋内シーンでは,奥行き予測の結果は満足できない。
屋外環境と比較すると,自己教師あり方式による室内環境における単眼映像の深さの推定には,さらに2つの課題がある。
(i)屋内映像系列の深度範囲は、異なるフレーム間で大きく異なり、深度ネットワークがトレーニングのための一貫した深度手がかりを誘導することが困難である。
(2) ハンドヘルドデバイスで記録された屋内シーケンスは、しばしばより回転運動を含むため、ポーズネットワークが正確な相対カメラのポーズを予測するのに困難を引き起こす。
本研究では,これらの課題を特別に考慮し,室内環境における自己教師付き単眼深度推定の性能向上のための良質な実践をまとめ,新たなフレームワークmonoindoor++を提案する。
まず,大域的な深度スケール係数を明示的に推定するために,変圧器を用いたスケール回帰ネットワークを備えた深さ分解モジュールを提案する。
第2に,従来の手法のように単段ポーズ推定手法を用いるのではなく,連続するフレーム間の相対カメラポーズを反復的に推定する残留ポーズ推定モジュールを提案する。
第3に, 残存ポーズ推定モジュールの広範な座標ガイダンスを組み込むため, ポーズネットワークへの入力に対して, 直接座標畳み込み符号化を行うことを提案する。
提案手法は,EuRoC MAV,NYUv2,ScanNet,7-Scenesなど,さまざまなベンチマーク屋内データセットで検証し,最先端の性能を示す。
関連論文リスト
- ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - SCIPaD: Incorporating Spatial Clues into Unsupervised Pose-Depth Joint Learning [17.99904937160487]
本研究では,教師なし深層学習のための空間的手がかりを取り入れた新しいアプローチであるSCIPaDを紹介する。
SCIPaDは平均翻訳誤差22.2%、カメラポーズ推定タスクの平均角誤差34.8%をKITTI Odometryデータセットで達成している。
論文 参考訳(メタデータ) (2024-07-07T06:52:51Z) - GEDepth: Ground Embedding for Monocular Depth Estimation [4.95394574147086]
本稿では,画像からカメラパラメータを分離する新たな接地モジュールを提案する。
地下深度と残留深度を最適に組み合わせるために、地上の注意をモジュール内に設計する。
実験の結果,本手法は一般的なベンチマークで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-18T17:56:06Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - Uncertainty Guided Depth Fusion for Spike Camera [49.41822923588663]
スパイクカメラのための単分子およびステレオ深度推定ネットワークの予測を融合させる新しい不確かさ誘導深度融合(UGDF)フレームワークを提案する。
我々のフレームワークは、ステレオスパイク深さ推定がより近い範囲でより良い結果をもたらすという事実に動機づけられている。
従来のカメラ深度推定よりもスパイク深度推定の利点を示すため、我々はCitySpike20Kというスパイク深度データセットに貢献する。
論文 参考訳(メタデータ) (2022-08-26T13:04:01Z) - MonoIndoor: Towards Good Practice of Self-Supervised Monocular Depth
Estimation for Indoor Environments [55.05401912853467]
屋内環境の自己監督深度推定は屋外環境よりも困難である。
屋内シーケンスの深さ範囲は異なるフレーム間で大きく異なり、奥行きネットワークが一貫した深さキューを誘導することは困難である。
屋外シーンの最大距離は、カメラが通常空を見るのと同じである。
屋外シーケンスの動作は、特にKITTIのようなデータセットを駆動するために、前もって翻訳される。
論文 参考訳(メタデータ) (2021-07-26T18:45:14Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。