論文の概要: Improving Optical Flow and Stereo Depth Estimation by Leveraging Uncertainty-Based Learning Difficulties
- arxiv url: http://arxiv.org/abs/2506.00324v1
- Date: Sat, 31 May 2025 00:37:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.77691
- Title: Improving Optical Flow and Stereo Depth Estimation by Leveraging Uncertainty-Based Learning Difficulties
- Title(参考訳): 不確実性に基づく学習障害の活用による光学的流れとステレオ深さ推定の改善
- Authors: Jisoo Jeong, Hong Cai, Jamie Menjay Lin, Fatih Porikli,
- Abstract要約: 本稿では,空間的に異なる学習困難を捉える不確実性に基づく信頼マップについて検討する。
我々はまず,誤りに基づく信頼度尺度を用いて,問題となるピクセルや領域により集中するようネットワークに促すDifficulty Balancing(DB)損失を提示する。
そこで本研究では,Occlusion Avoiding (OA)損失を回路整合性に基づく信頼性領域に誘導する手法を提案する。
- 参考スコア(独自算出の注目度): 46.35390610376629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional training for optical flow and stereo depth models typically employs a uniform loss function across all pixels. However, this one-size-fits-all approach often overlooks the significant variations in learning difficulty among individual pixels and contextual regions. This paper investigates the uncertainty-based confidence maps which capture these spatially varying learning difficulties and introduces tailored solutions to address them. We first present the Difficulty Balancing (DB) loss, which utilizes an error-based confidence measure to encourage the network to focus more on challenging pixels and regions. Moreover, we identify that some difficult pixels and regions are affected by occlusions, resulting from the inherently ill-posed matching problem in the absence of real correspondences. To address this, we propose the Occlusion Avoiding (OA) loss, designed to guide the network into cycle consistency-based confident regions, where feature matching is more reliable. By combining the DB and OA losses, we effectively manage various types of challenging pixels and regions during training. Experiments on both optical flow and stereo depth tasks consistently demonstrate significant performance improvements when applying our proposed combination of the DB and OA losses.
- Abstract(参考訳): 従来の光学フローとステレオ深度モデルのトレーニングでは、通常、すべてのピクセルに一様損失関数が用いられる。
しかし、このワンサイズのアプローチは、個々のピクセルとコンテキスト領域間の学習難しさの顕著なバリエーションをしばしば見落としている。
本稿では,これらの空間的に異なる学習課題を捉えた不確実性に基づく信頼マップについて検討し,それに対応するための最適化されたソリューションを提案する。
我々はまず,誤りに基づく信頼度尺度を用いて,問題となるピクセルや領域により集中するようネットワークに促すDifficulty Balancing(DB)損失を提示する。
さらに,いくつかの難解な画素や領域が閉塞の影響を受けており,実際の対応が欠如している場合に,本質的に不適切なマッチング問題が生じていることも確認した。
そこで本稿では,Occlusion Avoiding (OA) の損失に対して,ネットワークをサイクル整合性に基づく信頼性のある領域へと誘導する手法を提案する。
トレーニング中,DBとOAの損失を組み合わせることで,様々な種類の挑戦画素や領域を効果的に管理する。
提案したDBとOAの損失の組合せを適用した場合,光学的流れと立体的深度タスクの両方の実験は,常に顕著な性能向上を示す。
関連論文リスト
- Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging
Scenarios [103.72094710263656]
本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。
本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。
得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:39:16Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - CoreDeep: Improving Crack Detection Algorithms Using Width Stochasticity [0.0]
背景から亀裂を分離する明確な境界はない。
開発されたアルゴリズムは、データに関連する固有の課題を扱うべきです。
我々は,平均IoU,偽陽性,陰性で,主観的品質でアルゴリズムの性能を客観的に測定した。
論文 参考訳(メタデータ) (2022-09-10T12:21:52Z) - Robustness and invariance properties of image classifiers [8.970032486260695]
ディープニューラルネットワークは多くの画像分類タスクで印象的な結果を得た。
ディープネットワークは、多種多様なセマンティック保存画像修正に対して堅牢ではない。
画像分類器の小さなデータ分散シフトに対する堅牢性の低さは、その信頼性に関する深刻な懸念を引き起こす。
論文 参考訳(メタデータ) (2022-08-30T11:00:59Z) - Degradation-agnostic Correspondence from Resolution-asymmetric Stereo [96.03964515969652]
テレワイドカメラシステムで取得した解像度の異なる2枚の画像からステレオマッチングの問題を考察する。
特徴量整合性という画像空間の代わりに特徴空間に2つのビュー間の整合性を課すことを提案する。
測光損失をトレーニングしたステレオマッチングネットワークは最適ではないが, 特徴抽出器は劣化に依存しない, マッチング特有の特徴を生成できる。
論文 参考訳(メタデータ) (2022-04-04T12:24:34Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - Enhancing Perceptual Loss with Adversarial Feature Matching for
Super-Resolution [5.258555266148511]
単一画像超解法 (SISR) は不確定な数の有効解を持つ不確定問題である。
これらのパターンアーティファクトの根本原因は、知覚的損失の事前学習目標と超解答目標とのミスマッチに遡ることができる。
論文 参考訳(メタデータ) (2020-05-15T12:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。