論文の概要: Back to the Color: Learning Depth to Specific Color Transformation for Unsupervised Depth Estimation
- arxiv url: http://arxiv.org/abs/2406.07741v5
- Date: Tue, 08 Oct 2024 07:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:39.926960
- Title: Back to the Color: Learning Depth to Specific Color Transformation for Unsupervised Depth Estimation
- Title(参考訳): バック・トゥ・ザ・カラー:教師なし深度推定のための特定の色変換への深度学習
- Authors: Yufan Zhu, Chongzhi Ran, Mingtao Feng, Fangfang Wu, Le Dong, Weisheng Dong, Antonio M. López, Guangming Shi,
- Abstract要約: 合成色と実世界の色の違いは、実世界のシーンにおける深度推定に重大な課題をもたらす。
実世界のデータに基づいて訓練されたモデルを用いて,奥行きからリアルな色を予測するフレームワークBack2Colorを提案する。
また、VADepthは、変換器よりも計算量が少なく、精度も高いVision Attention Networkをベースにしている。
- 参考スコア(独自算出の注目度): 45.07558105128673
- License:
- Abstract: Virtual engines can generate dense depth maps for various synthetic scenes, making them invaluable for training depth estimation models. However, discrepancies between synthetic and real-world colors pose significant challenges for depth estimation in real-world scenes, especially in complex and uncertain environments encountered in unsupervised monocular depth estimation tasks. To address this issue, we propose Back2Color, a framework that predicts realistic colors from depth using a model trained on real-world data, thus transforming synthetic colors into their real-world counterparts. Additionally, we introduce the Syn-Real CutMix method for joint training with both real-world unsupervised and synthetic supervised depth samples, enhancing monocular depth estimation performance in real-world scenes. Furthermore, to mitigate the impact of non-rigid motions on depth estimation, we present an auto-learning uncertainty temporal-spatial fusion method (Auto-UTSF), which leverages the strengths of unsupervised learning in both temporal and spatial dimensions. We also designed VADepth, based on the Vision Attention Network, which offers lower computational complexity and higher accuracy than transformers. Our Back2Color framework achieves state-of-the-art performance on the Kitti dataset, as evidenced by improvements in performance metrics and the production of fine-grained details. This is particularly evident on more challenging datasets such as Cityscapes for unsupervised depth estimation.
- Abstract(参考訳): 仮想エンジンは様々な合成シーンの深度マップを生成することができるため、深度推定モデルの訓練には有用である。
しかし、合成色と実世界の色の違いは、現実世界のシーン、特に教師なしの単分子深度推定タスクで発生する複雑で不確実な環境での深度推定に重大な課題をもたらす。
この問題に対処するために,実世界のデータに基づいてトレーニングされたモデルを用いて,現実的な色を奥行きから予測するフレームワークBack2Colorを提案する。
さらに,実世界の非教師付きおよび合成教師付き深度サンプルとの共同訓練のためのSyn-Real CutMix法を導入し,実世界のシーンにおける単眼深度推定性能を向上させる。
さらに,非厳密な動きが深度推定に与える影響を軽減するために,時間次元と空間次元の両方において教師なし学習の強みを利用する自動学習不確実時空間融合法(Auto-UTSF)を提案する。
また、VADepthは、変換器よりも計算量が少なく、精度も高いVision Attention Networkをベースとして設計した。
私たちのBack2Colorフレームワークは、パフォーマンス指標の改善と詳細な詳細生成によって証明された、Kittiデータセットの最先端のパフォーマンスを実現しています。
これは、教師なし深度推定のためのCityscapesのようなより困難なデータセットで特に顕著である。
関連論文リスト
- Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - DEHRFormer: Real-time Transformer for Depth Estimation and Haze Removal
from Varicolored Haze Scenes [10.174140482558904]
そこで本研究では,画像深度推定とヘイズ除去を同時に行うリアルタイムトランスフォーマを提案する。
DEHRFormerは1つのエンコーダと2つのタスク固有のデコーダで構成される。
対照的な学習とドメイン整合性学習を利用して、現実のデハジングにおける弱い一般化問題に取り組む新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2023-03-13T07:47:18Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Monocular Depth Estimation for Semi-Transparent Volume Renderings [10.496309857650306]
モノクル深度推定ネットワークは、現実世界のシーンではますます信頼性が増している。
本研究では,既存手法の単眼深度推定への適応が半透明ボリュームレンダリングにおいて良好であることを示す。
論文 参考訳(メタデータ) (2022-06-27T13:18:02Z) - Unsupervised Single-shot Depth Estimation using Perceptual
Reconstruction [0.0]
この研究は、生成ニューラルネットワークの分野における最新の進歩を示し、それらを活用して完全に教師なしの単発深度合成を行う。
RGB-to-deepthとdeep-to-RGB転送用の2つのジェネレータを実装し,Wasserstein-1距離と新しい知覚再構成項を用いて同時に最適化した。
本研究で得られた成果は、実世界のアプリケーションにおいて、教師なし単発深度推定の大きな可能性を示している。
論文 参考訳(メタデータ) (2022-01-28T15:11:34Z) - Occlusion-aware Unsupervised Learning of Depth from 4-D Light Fields [50.435129905215284]
4次元光場処理と解析のための教師なし学習に基づく深度推定法を提案する。
光場データの特異な幾何学構造に関する基礎知識に基づいて,光場ビューのサブセット間の角度コヒーレンスを探索し,深度マップを推定する。
提案手法は,従来の手法と同等の精度で計算コストを低減した深度マップを作成できる。
論文 参考訳(メタデータ) (2021-06-06T06:19:50Z) - Function4D: Real-time Human Volumetric Capture from Very Sparse Consumer
RGBD Sensors [67.88097893304274]
時間的融合と深い暗黙機能を組み合わせた人間の体積捕獲法を提案する。
トポロジーの整合性とともに深度観測を融合する動的スライディングを提案する。
論文 参考訳(メタデータ) (2021-05-05T04:12:38Z) - Domain Adaptive Monocular Depth Estimation With Semantic Information [13.387521845596149]
ドメインギャップを狭めるためにセマンティック情報を活用した対比トレーニングモデルを提案する。
提案したコンパクトモデルは,複雑な最新モデルに匹敵する最先端性能を実現する。
論文 参考訳(メタデータ) (2021-04-12T18:50:41Z) - Unpaired Single-Image Depth Synthesis with cycle-consistent Wasserstein
GANs [1.0499611180329802]
実環境深度のリアルタイム推定は、様々な自律システムタスクにとって必須のモジュールである。
本研究では、生成型ニューラルネットワークの分野における最近の進歩を、教師なしの単一画像深度合成に活用する。
論文 参考訳(メタデータ) (2021-03-31T09:43:38Z) - DeFeat-Net: General Monocular Depth via Simultaneous Unsupervised
Representation Learning [65.94499390875046]
DeFeat-Netは、クロスドメインの高密度な特徴表現を同時に学習するアプローチである。
提案手法は, 誤差対策を全て10%程度減らすことで, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2020-03-30T13:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。