論文の概要: D$^3$epth: Self-Supervised Depth Estimation with Dynamic Mask in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2411.04826v1
- Date: Thu, 07 Nov 2024 16:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:40:18.654309
- Title: D$^3$epth: Self-Supervised Depth Estimation with Dynamic Mask in Dynamic Scenes
- Title(参考訳): D$^3$epth:動的場面における動的マスクを用いた自己監督深度推定
- Authors: Siyu Chen, Hong Liu, Wenhao Li, Ying Zhu, Guoquan Wang, Jianbing Wu,
- Abstract要約: D$3$epthは動的シーンにおける自己教師付き深度推定の新しい手法である。
これは2つの重要な視点から、動的オブジェクトの課題に取り組む。
既存の自己教師付き単分子深度推定ベースラインよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 23.731667977542454
- License:
- Abstract: Depth estimation is a crucial technology in robotics. Recently, self-supervised depth estimation methods have demonstrated great potential as they can efficiently leverage large amounts of unlabelled real-world data. However, most existing methods are designed under the assumption of static scenes, which hinders their adaptability in dynamic environments. To address this issue, we present D$^3$epth, a novel method for self-supervised depth estimation in dynamic scenes. It tackles the challenge of dynamic objects from two key perspectives. First, within the self-supervised framework, we design a reprojection constraint to identify regions likely to contain dynamic objects, allowing the construction of a dynamic mask that mitigates their impact at the loss level. Second, for multi-frame depth estimation, we introduce a cost volume auto-masking strategy that leverages adjacent frames to identify regions associated with dynamic objects and generate corresponding masks. This provides guidance for subsequent processes. Furthermore, we propose a spectral entropy uncertainty module that incorporates spectral entropy to guide uncertainty estimation during depth fusion, effectively addressing issues arising from cost volume computation in dynamic environments. Extensive experiments on KITTI and Cityscapes datasets demonstrate that the proposed method consistently outperforms existing self-supervised monocular depth estimation baselines. Code is available at \url{https://github.com/Csyunling/D3epth}.
- Abstract(参考訳): 深さ推定はロボット工学において重要な技術である。
近年, 自己教師付き深度推定法は, 大量の実世界のデータを効率的に活用できることから, 大きな可能性を秘めている。
しかし、既存のほとんどの手法は静的なシーンを前提に設計されており、動的環境への適応性を妨げている。
この問題に対処するため,動的シーンにおける自己教師型深度推定法であるD$^3$epthを提案する。
これは2つの重要な視点から、動的オブジェクトの課題に取り組む。
まず、自己監督型フレームワークにおいて、動的対象を含む可能性のある領域を特定するための再計画制約を設計し、損失レベルの影響を緩和する動的マスクの構築を可能にする。
第2に,マルチフレーム深度推定のために,隣接するフレームを利用して動的オブジェクトに関連する領域を特定し,対応するマスクを生成するコストボリューム自動マスキング方式を導入する。
これはその後のプロセスのガイダンスを提供する。
さらに,スペクトルエントロピーを組み込んだスペクトルエントロピー不確実性モジュールを提案する。
KITTIとCityscapesデータセットの大規模な実験により、提案手法は既存の自己教師付き単分子深度推定ベースラインより一貫して優れていることが示された。
コードは \url{https://github.com/Csyunling/D3epth} で入手できる。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Mining Supervision for Dynamic Regions in Self-Supervised Monocular Depth Estimation [23.93080319283679]
既存の手法では、画像再構成損失を中心に、画素の深さと動きを共同で推定する。
動的領域1は、深度と動きの推定に固有の曖昧さのため、これらの手法にとって重要な課題である。
本稿では,動的領域に対する擬似深度ラベルをトレーニングデータから活用する自己教師型トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-23T10:51:15Z) - GAM-Depth: Self-Supervised Indoor Depth Estimation Leveraging a
Gradient-Aware Mask and Semantic Constraints [12.426365333096264]
本稿では,勾配認識マスクと意味制約という,2つの新しいコンポーネントをベースとしたGAM-Depthを提案する。
グラデーション対応マスクは、キー領域とテクスチャレス領域の両方の適応的かつ堅牢な監視を可能にする。
室内における自己監督深度推定のセマンティック制約の導入は、物体の境界における深度差を改善する。
論文 参考訳(メタデータ) (2024-02-22T07:53:34Z) - Manydepth2: Motion-Aware Self-Supervised Multi-Frame Monocular Depth Estimation in Dynamic Scenes [45.092076587934464]
動的オブジェクトと静的背景の両方に対して正確な深度推定を実現するため,Marydepth2を提案する。
動的コンテンツによって引き起こされる課題に対処するために、光学的流れと粗い単分子深度を取り入れて擬似静的参照フレームを作成する。
このフレームを使用して、バニラターゲットフレームと協調してモーション対応のコストボリュームを構築する。
論文 参考訳(メタデータ) (2023-12-23T14:36:27Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - D2SLAM: Semantic visual SLAM based on the influence of Depth for Dynamic
environments [0.483420384410068]
一般化とシーン認識に欠ける動的要素を決定するための新しい手法を提案する。
我々は,幾何学的および意味的モジュールからの推定精度を向上するシーン深度情報を用いる。
その結果, 動的環境における正確な位置推定とマッピングを行う上で, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-16T22:13:59Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - DOT: Dynamic Object Tracking for Visual SLAM [83.69544718120167]
DOTはインスタンスセグメンテーションとマルチビュー幾何を組み合わせて、動的オブジェクトのマスクを生成する。
実際にどのオブジェクトが動いているかを判断するために、DOTは、潜在的にダイナミックなオブジェクトの最初のインスタンスを抽出し、次に推定されたカメラモーションで、測光再投射誤差を最小限にして、そのようなオブジェクトを追跡する。
提案手法はORB-SLAM 2の精度とロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-09-30T18:36:28Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。