論文の概要: ProDepth: Boosting Self-Supervised Multi-Frame Monocular Depth with Probabilistic Fusion
- arxiv url: http://arxiv.org/abs/2407.09303v1
- Date: Fri, 12 Jul 2024 14:37:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-15 23:08:25.420352
- Title: ProDepth: Boosting Self-Supervised Multi-Frame Monocular Depth with Probabilistic Fusion
- Title(参考訳): ProDepth:確率的融合による自己監督型マルチフレーム単眼深度向上
- Authors: Sungmin Woo, Wonjoon Lee, Woo Jin Kim, Dogyoon Lee, Sangyoun Lee,
- Abstract要約: 多フレーム単分子深度推定は、静的シーンの仮定の下で連続するフレーム間の幾何的整合性に依存する。
動的シーンにおける移動物体の存在は必然的に不整合を引き起こし、トレーニング中に複数のフレームの特徴マッチングと誤解を招く。
本稿では,確率論的アプローチを用いて動的オブジェクトによるミスマッチ問題に効果的に対処するProDepthという新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.448021191744285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised multi-frame monocular depth estimation relies on the geometric consistency between successive frames under the assumption of a static scene. However, the presence of moving objects in dynamic scenes introduces inevitable inconsistencies, causing misaligned multi-frame feature matching and misleading self-supervision during training. In this paper, we propose a novel framework called ProDepth, which effectively addresses the mismatch problem caused by dynamic objects using a probabilistic approach. We initially deduce the uncertainty associated with static scene assumption by adopting an auxiliary decoder. This decoder analyzes inconsistencies embedded in the cost volume, inferring the probability of areas being dynamic. We then directly rectify the erroneous cost volume for dynamic areas through a Probabilistic Cost Volume Modulation (PCVM) module. Specifically, we derive probability distributions of depth candidates from both single-frame and multi-frame cues, modulating the cost volume by adaptively fusing those distributions based on the inferred uncertainty. Additionally, we present a self-supervision loss reweighting strategy that not only masks out incorrect supervision with high uncertainty but also mitigates the risks in remaining possible dynamic areas in accordance with the probability. Our proposed method excels over state-of-the-art approaches in all metrics on both Cityscapes and KITTI datasets, and demonstrates superior generalization ability on the Waymo Open dataset.
- Abstract(参考訳): 自己教師付き多面単眼深度推定は、静的シーンの仮定の下で連続するフレーム間の幾何的整合性に依存する。
しかし、動的シーンにおける移動物体の存在は必然的に不整合を引き起こし、トレーニング中に複数のフレームの特徴マッチングと誤解を招く。
本稿では,動的オブジェクトによるミスマッチ問題に確率論的アプローチを用いて効果的に対処するProDepthという新しいフレームワークを提案する。
まず,補助デコーダを用いて静的なシーン仮定に関する不確かさを推定する。
このデコーダは、コストボリュームに埋め込まれた不整合を分析し、ダイナミックな領域の確率を推定する。
次に、確率的コストボリューム変調(PCVM)モジュールを用いて、動的領域の誤ったコストボリュームを直接修正する。
具体的には,1フレームおよび複数フレームのキューから深度候補の確率分布を導出し,推定不確実性に基づいてそれらの分布を適応的に融合させることにより,コストボリュームを変調する。
さらに,不確実性の高い不正監視を隠蔽するだけでなく,その可能性に応じて動的に残るリスクを軽減できる自己超過損失軽減戦略を提案する。
提案手法は,Cityscapes と KITTI の両方のデータセットにおけるすべてのメトリクスにおける最先端のアプローチを最適化し,Waymo Open データセット上での優れた一般化能力を実証する。
関連論文リスト
- D$^3$epth: Self-Supervised Depth Estimation with Dynamic Mask in Dynamic Scenes [23.731667977542454]
D$3$epthは動的シーンにおける自己教師付き深度推定の新しい手法である。
これは2つの重要な視点から、動的オブジェクトの課題に取り組む。
既存の自己教師付き単分子深度推定ベースラインよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T16:07:00Z) - Stereo Risk: A Continuous Modeling Approach to Stereo Matching [110.22344879336043]
我々はコンピュータビジョンにおける古典的ステレオマッチング問題を解決するための新しいディープラーニングアプローチであるStereo Riskを紹介する。
ステレオリスクはディープネットワーク,特にマルチモーダル確率分布の相違に対して,ステレオマッチング性能を向上させることを実証する。
総合的な分析により,提案手法の理論的健全性と,各種ベンチマークデータセットにおける最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-03T14:30:47Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - A Robustness Analysis of Blind Source Separation [91.3755431537592]
ブラインドソース分離(BSS)は、変換$f$が可逆であるが未知であるという条件の下で、その混合である$X=f(S)$から観測されていない信号を復元することを目的としている。
このような違反を分析し、その影響を$X$から$S$のブラインドリカバリに与える影響を定量化するための一般的なフレームワークを提案する。
定義された構造的仮定からの偏差に対する一般的なBSS溶出は、明示的な連続性保証という形で、利益的に分析可能であることを示す。
論文 参考訳(メタデータ) (2023-03-17T16:30:51Z) - Robust Control for Dynamical Systems With Non-Gaussian Noise via Formal
Abstractions [59.605246463200736]
雑音分布の明示的な表現に依存しない新しい制御器合成法を提案する。
まず、連続制御系を有限状態モデルに抽象化し、離散状態間の確率的遷移によってノイズを捕捉する。
我々は最先端の検証技術を用いてマルコフ決定プロセスの間隔を保証し、これらの保証が元の制御システムに受け継がれるコントローラを演算する。
論文 参考訳(メタデータ) (2023-01-04T10:40:30Z) - Modeling Multimodal Aleatoric Uncertainty in Segmentation with Mixture
of Stochastic Expert [24.216869988183092]
入力画像にあいまいさが存在する場合、セグメンテーションにおけるデータ独立不確実性(いわゆるアレタリック不確実性)を捉えることに重点を置いている。
本稿では,各専門家ネットワークがアレータティック不確実性の異なるモードを推定する,新しい専門家モデル(MoSE)を提案する。
We developed a Wasserstein-like loss that makes direct minimizes the distribution distance between the MoSE and ground truth annotations。
論文 参考訳(メタデータ) (2022-12-14T16:48:21Z) - Towards Robust Unsupervised Disentanglement of Sequential Data -- A Case
Study Using Music Audio [17.214062755082065]
Disentangled Sequence Autoencoder (DSAE) は確率的グラフィカルモデルのクラスを表す。
バニラDSAEはモデルアーキテクチャの選択や動的潜伏変数の容量に敏感であることを示す。
本稿では,まずシーケンスレベルの事前分布を学習する2段階のトレーニングフレームワークTS-DSAEを提案する。
論文 参考訳(メタデータ) (2022-05-12T04:11:25Z) - CC-Cert: A Probabilistic Approach to Certify General Robustness of
Neural Networks [58.29502185344086]
安全クリティカルな機械学習アプリケーションでは、モデルを敵の攻撃から守ることが不可欠である。
意味的に意味のある入力変換に対して、ディープラーニングモデルの証明可能な保証を提供することが重要である。
我々はChernoff-Cramer境界に基づく新しい普遍確率的証明手法を提案する。
論文 参考訳(メタデータ) (2021-09-22T12:46:04Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Modal Uncertainty Estimation via Discrete Latent Representation [4.246061945756033]
本稿では,インプットとアウトプットの1対1マッピングを,忠実な不確実性対策とともに学習するディープラーニングフレームワークを提案する。
我々のフレームワークは、現在の最先端手法よりもはるかに正確な不確実性推定を実証している。
論文 参考訳(メタデータ) (2020-07-25T05:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。