論文の概要: GasMono: Geometry-Aided Self-Supervised Monocular Depth Estimation for
Indoor Scenes
- arxiv url: http://arxiv.org/abs/2309.16019v1
- Date: Tue, 26 Sep 2023 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 18:46:13.626737
- Title: GasMono: Geometry-Aided Self-Supervised Monocular Depth Estimation for
Indoor Scenes
- Title(参考訳): GasMono: 室内シーンにおける幾何学的自己監督型単眼深度推定
- Authors: Chaoqiang Zhao, Matteo Poggi, Fabio Tosi, Lei Zhou, Qiyu Sun, Yang
Tang, Stefano Mattoccia
- Abstract要約: 本稿では,フレームと低テクスチャの大きな回転に起因する屋内シーンにおける自己教師型単眼深度推定の課題に対処する。
モノクラーシーケンスから粗いカメラポーズを多視点形状で取得し,前者に対応する。
低テクスチャの効果を和らげるために、視覚変換器のグローバルな推論と過度に適合する反復的な自己蒸留機構を組み合わせる。
- 参考スコア(独自算出の注目度): 47.76269541664071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles the challenges of self-supervised monocular depth
estimation in indoor scenes caused by large rotation between frames and low
texture. We ease the learning process by obtaining coarse camera poses from
monocular sequences through multi-view geometry to deal with the former.
However, we found that limited by the scale ambiguity across different scenes
in the training dataset, a na\"ive introduction of geometric coarse poses
cannot play a positive role in performance improvement, which is
counter-intuitive. To address this problem, we propose to refine those poses
during training through rotation and translation/scale optimization. To soften
the effect of the low texture, we combine the global reasoning of vision
transformers with an overfitting-aware, iterative self-distillation mechanism,
providing more accurate depth guidance coming from the network itself.
Experiments on NYUv2, ScanNet, 7scenes, and KITTI datasets support the
effectiveness of each component in our framework, which sets a new
state-of-the-art for indoor self-supervised monocular depth estimation, as well
as outstanding generalization ability. Code and models are available at
https://github.com/zxcqlf/GasMono
- Abstract(参考訳): 本稿では,フレームと低テクスチャの大きな回転に起因する屋内シーンにおける自己監督単眼深度推定の課題に取り組む。
前者に対処するために多視点幾何を通して単眼列から粗いカメラポーズを得ることにより、学習プロセスを緩和する。
しかし,トレーニングデータセットの異なる場面におけるスケールのあいまいさによって制限された幾何学的粗いポーズの導入は,非直感的なパフォーマンス改善において肯定的な役割を果たせないことがわかった。
この問題に対処するために、回転と翻訳/スケール最適化によるトレーニング中のポーズを洗練することを提案する。
低テクスチャの効果を和らげるために、視覚変換器のグローバルな推論と過度に適合する反復的な自己蒸留機構を組み合わせることで、ネットワーク自体からのより正確な深度ガイダンスを提供する。
NYUv2, ScanNet, 7scenes, KITTIデータセットを用いた実験は, 室内の自己監督型単眼深度推定のための新しい最先端技術と優れた一般化能力を実現するフレームワークの各コンポーネントの有効性をサポートする。
コードとモデルはhttps://github.com/zxcqlf/GasMonoで入手できる。
関連論文リスト
- Deeper into Self-Supervised Monocular Indoor Depth Estimation [7.30562653023176]
単分子配列から室内深度を自己教師付きで学習することは、研究者にとって非常に難しい。
本研究では,IndoorDepthという手法を2つのイノベーションから構成する。
NYUv2ベンチマークの実験では、私たちのIndoorDepthは従来の最先端の手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-03T04:55:32Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Multi-Frame Self-Supervised Depth with Transformers [33.00363651105475]
本稿では,コストボリューム生成のためのトランスフォーマーアーキテクチャを提案する。
深度分布型エピポーラサンプリングを用いて、マッチング候補を選択する。
私たちは、一連の自己と横断的なレイヤを通じて予測を洗練します。
論文 参考訳(メタデータ) (2022-04-15T19:04:57Z) - SelfTune: Metrically Scaled Monocular Depth Estimation through
Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文 参考訳(メタデータ) (2022-03-10T12:28:42Z) - Self-Supervised Monocular Depth Estimation of Untextured Indoor Rotated
Scenes [6.316693022958222]
自己教師付き深層学習法はステレオ画像を利用して単眼深度推定の訓練を行っている。
これらの手法は, 室内環境における監視手法の性能とカメラ回転とを一致しない。
テクスチャレス領域における画像再構成誤りの曖昧さを補正する新しい不均一損失項を提案する。
論文 参考訳(メタデータ) (2021-06-24T12:27:16Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - SelfDeco: Self-Supervised Monocular Depth Completion in Challenging
Indoor Environments [50.761917113239996]
自己教師付き単分子深度補完のための新しいアルゴリズムを提案する。
提案手法は,深度ラベルを含まない疎深度測定とそれに対応する単眼ビデオシーケンスのみを必要とするニューラルネットワークのトレーニングに基づく。
我々の自己監督アルゴリズムは、テクスチャのない領域、光沢のない透明な表面、非ランバートの表面、動く人々、より長く多様な深度範囲、複雑なエゴモーションによって捉えられたシーンを含む屋内環境に挑戦するために設計されている。
論文 参考訳(メタデータ) (2020-11-10T08:55:07Z) - Unsupervised Monocular Depth Learning with Integrated Intrinsics and
Spatio-Temporal Constraints [61.46323213702369]
本研究は,大規模深度マップとエゴモーションを予測可能な教師なし学習フレームワークを提案する。
本結果は,KITTI運転データセットの複数シーケンスにおける現在の最先端技術と比較して,高い性能を示す。
論文 参考訳(メタデータ) (2020-11-02T22:26:58Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。