Fugu-MT 論文翻訳(概要): SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes

論文の概要: SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes

arxiv url: http://arxiv.org/abs/2211.03660v1
Date: Mon, 7 Nov 2022 16:17:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 17:39:07.787147
Title: SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes
Title（参考訳）: SC-DepthV3:動的シーンに対するロバストな自己教師型単眼深度推定
Authors: Libo Sun, Jia-Wang Bian, Huangying Zhan, Wei Yin, Ian Reid, Chunhua Shen
Abstract要約: 自己監督型単眼深度推定は静的な場面で顕著な結果を示した。トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
参考スコア（独自算出の注目度）: 83.36116454110002
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised monocular depth estimation has shown impressive results in static scenes. It relies on the multi-view consistency assumption for training networks, however, that is violated in dynamic object regions and occlusions. Consequently, existing methods show poor accuracy in dynamic scenes, and the estimated depth map is blurred at object boundaries because they are usually occluded in other training views. In this paper, we propose SC-DepthV3 for addressing the challenges. Specifically, we introduce an external pretrained monocular depth estimation model for generating single-image depth prior, namely pseudo-depth, based on which we propose novel losses to boost self-supervised training. As a result, our model can predict sharp and accurate depth maps, even when training from monocular videos of highly-dynamic scenes. We demonstrate the significantly superior performance of our method over previous methods on six challenging datasets, and we provide detailed ablation studies for the proposed terms. Source code and data will be released at https://github.com/JiawangBian/sc_depth_pl
Abstract（参考訳）: 自己監督型単眼深度推定は静的な場面で顕著な結果を示した。トレーニングネットワークのマルチビュー一貫性の仮定に依存しているが、ダイナミックなオブジェクト領域やオクルージョンでは違反している。その結果、既存の手法ではダイナミックなシーンでは精度が悪く、推定された深度マップは、他のトレーニングビューでは無視されるため、オブジェクト境界でぼやけている。本稿では,課題に対処するためのSC-DepthV3を提案する。具体的には, 自己教師付き学習を促進させる新たな損失について提案する, 先行する単眼深度推定モデル, すなわち擬似深度モデルを提案する。その結果,高度にダイナミックなシーンの単眼映像から訓練しても,シャープで正確な深度マップを予測できることがわかった。提案手法は,6つの挑戦的データセットに対して,従来の手法よりもはるかに優れた性能を示し,提案手法について詳細なアブレーション研究を行った。ソースコードとデータはhttps://github.com/JiawangBian/sc_depth_plで公開される。

関連論文リスト

A Simple yet Effective Test-Time Adaptation for Zero-Shot Monocular Metric Depth Estimation [46.037640130193566]
センサや低分解能LiDARなどの技術によって提供される3Dポイントや、IMUが提示したポーズによる構造移動を用いて、奥行きの予測を再現する新しい手法を提案する。実験では, ゼロショット単角距離推定法, 微調整法と比較しての競合性, 深度補修法よりも頑健さが向上した。
論文参考訳（メタデータ） (2024-12-18T17:50:15Z)
Align3R: Aligned Monocular Depth Estimation for Dynamic Videos [50.28715151619659]
動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。
論文参考訳（メタデータ） (2024-12-04T07:09:59Z)
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文参考訳（メタデータ） (2024-10-04T18:00:07Z)
Mining Supervision for Dynamic Regions in Self-Supervised Monocular Depth Estimation [23.93080319283679]
既存の手法では、画像再構成損失を中心に、画素の深さと動きを共同で推定する。動的領域1は、深度と動きの推定に固有の曖昧さのため、これらの手法にとって重要な課題である。本稿では,動的領域に対する擬似深度ラベルをトレーニングデータから活用する自己教師型トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-23T10:51:15Z)
Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation [20.230238670888454]
本稿では,アフィン不変な単分子深度推定法であるMarigoldを紹介する。合成トレーニングデータのみを使用して、単一のGPU上で数日で微調整できる。特定のケースで20%以上のパフォーマンス向上を含む、幅広いデータセットで最先端のパフォーマンスを提供する。
論文参考訳（メタデータ） (2023-12-04T18:59:13Z)
Towards Accurate Reconstruction of 3D Scene Shape from A Single Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-28T16:20:14Z)
Learning Occlusion-Aware Coarse-to-Fine Depth Map for Self-supervised Monocular Depth Estimation [11.929584800629673]
自己教師付き単眼深度推定のためのOcclusion-aware Coarse-to-Fine Depth Mapを学習するための新しいネットワークを提案する。提案したOCFD-Netは,粗度深度マップの学習に離散深度制約を用いるだけでなく,シーン深度残差の学習にも連続深度制約を用いる。
論文参考訳（メタデータ） (2022-03-21T12:43:42Z)
Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。 The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文参考訳（メタデータ） (2021-03-07T00:08:21Z)
Unsupervised Monocular Depth Reconstruction of Non-Rigid Scenes [87.91841050957714]
本稿では,ダイナミックシーンの深度推定のための非監視単眼フレームワークを提案する。再構成した3次元点間の対数距離を日和見的に保存することを目的とした訓練目標を導出する。提案手法は,非剛性シーンの挑戦的な映像から3Dを再構成する能力を実証し,有望な結果を提供する。
論文参考訳（メタデータ） (2020-12-31T16:02:03Z)
Self-Supervised Joint Learning Framework of Depth Estimation via Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文参考訳（メタデータ） (2020-06-17T13:56:59Z)
Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。提案手法は, 時系列の深度マップを生成する。モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文参考訳（メタデータ） (2020-01-08T16:50:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。