Fugu-MT 論文翻訳(概要): Back to the Color: Learning Depth to Specific Color Transformation for Unsupervised Depth Estimation

論文の概要: Back to the Color: Learning Depth to Specific Color Transformation for Unsupervised Depth Estimation

arxiv url: http://arxiv.org/abs/2406.07741v5
Date: Tue, 08 Oct 2024 07:43:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 16:28:05.390693
Title: Back to the Color: Learning Depth to Specific Color Transformation for Unsupervised Depth Estimation
Title（参考訳）: バック・トゥ・ザ・カラー:教師なし深度推定のための特定の色変換への深度学習
Authors: Yufan Zhu, Chongzhi Ran, Mingtao Feng, Fangfang Wu, Le Dong, Weisheng Dong, Antonio M. López, Guangming Shi,
Abstract要約: 合成色と実世界の色の違いは、実世界のシーンにおける深度推定に重大な課題をもたらす。実世界のデータに基づいて訓練されたモデルを用いて,奥行きからリアルな色を予測するフレームワークBack2Colorを提案する。また、VADepthは、変換器よりも計算量が少なく、精度も高いVision Attention Networkをベースにしている。
参考スコア（独自算出の注目度）: 45.07558105128673
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Virtual engines can generate dense depth maps for various synthetic scenes, making them invaluable for training depth estimation models. However, discrepancies between synthetic and real-world colors pose significant challenges for depth estimation in real-world scenes, especially in complex and uncertain environments encountered in unsupervised monocular depth estimation tasks. To address this issue, we propose Back2Color, a framework that predicts realistic colors from depth using a model trained on real-world data, thus transforming synthetic colors into their real-world counterparts. Additionally, we introduce the Syn-Real CutMix method for joint training with both real-world unsupervised and synthetic supervised depth samples, enhancing monocular depth estimation performance in real-world scenes. Furthermore, to mitigate the impact of non-rigid motions on depth estimation, we present an auto-learning uncertainty temporal-spatial fusion method (Auto-UTSF), which leverages the strengths of unsupervised learning in both temporal and spatial dimensions. We also designed VADepth, based on the Vision Attention Network, which offers lower computational complexity and higher accuracy than transformers. Our Back2Color framework achieves state-of-the-art performance on the Kitti dataset, as evidenced by improvements in performance metrics and the production of fine-grained details. This is particularly evident on more challenging datasets such as Cityscapes for unsupervised depth estimation.
Abstract（参考訳）: 仮想エンジンは様々な合成シーンの深度マップを生成することができるため、深度推定モデルの訓練には有用である。しかし、合成色と実世界の色の違いは、現実世界のシーン、特に教師なしの単分子深度推定タスクで発生する複雑で不確実な環境での深度推定に重大な課題をもたらす。この問題に対処するために,実世界のデータに基づいてトレーニングされたモデルを用いて,現実的な色を奥行きから予測するフレームワークBack2Colorを提案する。さらに,実世界の非教師付きおよび合成教師付き深度サンプルとの共同訓練のためのSyn-Real CutMix法を導入し,実世界のシーンにおける単眼深度推定性能を向上させる。さらに,非厳密な動きが深度推定に与える影響を軽減するために,時間次元と空間次元の両方において教師なし学習の強みを利用する自動学習不確実時空間融合法(Auto-UTSF)を提案する。また、VADepthは、変換器よりも計算量が少なく、精度も高いVision Attention Networkをベースとして設計した。私たちのBack2Colorフレームワークは、パフォーマンス指標の改善と詳細な詳細生成によって証明された、Kittiデータセットの最先端のパフォーマンスを実現しています。これは、教師なし深度推定のためのCityscapesのようなより困難なデータセットで特に顕著である。

関連論文リスト

Rethinking Transparent Object Grasping: Depth Completion with Monocular Depth Estimation and Instance Mask [10.472380465235629]
ReMakeは、インスタンスマスクと単眼深度推定によってガイドされる、新しい深度補完フレームワークである。提案手法は,ベンチマークデータセットと実世界のシナリオの両方において,既存の手法よりも優れている。
論文参考訳（メタデータ） (2025-08-04T15:14:47Z)
Always Clear Depth: Robust Monocular Depth Estimation under Adverse Weather [48.65180004211851]
高品質なトレーニングデータ生成とドメイン適応の観点から,textbfACDepth と呼ばれる頑健な単眼深度推定手法を提案する。具体的には、悪天候条件をシミュレートするサンプルを生成するための1段階拡散モデルを導入し、トレーニング中に多段階劣化データセットを構築した。本稿では,教師モデルと事前学習深度V2からの知識を学生ネットワークに吸収させる多粒度知識蒸留戦略(MKD)について詳述する。
論文参考訳（メタデータ） (2025-05-18T02:30:47Z)
Seurat: From Moving Points to Depth [66.65189052568209]
本研究では,2次元軌跡の空間的関係と時間的変化を調べ,相対的な深度を推定する手法を提案する。提案手法は,様々な領域にわたる時間的スムーズかつ高精度な深度予測を実現する。
論文参考訳（メタデータ） (2025-04-20T17:37:02Z)
Distilling Monocular Foundation Model for Fine-grained Depth Completion [17.603217168518356]
本研究では,深度調整のための2段階の知識蒸留フレームワークを提案する。第1段階では、自然画像から多様なトレーニングデータを生成し、幾何学的知識を蒸留して深度補正を行う。第2段階では、実世界のデータセットを微調整する際に、スケールとシフト不変の損失を用いて実世界のスケールを学習する。
論文参考訳（メタデータ） (2025-03-21T09:34:01Z)
Leveraging Stable Diffusion for Monocular Depth Estimation via Image Semantic Encoding [1.0445560141983634]
視覚的特徴から直接文脈情報を抽出する画像に基づくセマンティック埋め込みを提案する。提案手法は,屋外シーンの処理におけるCLIP埋め込みの欠点に対処しながら,最先端モデルに匹敵する性能を実現する。
論文参考訳（メタデータ） (2025-02-01T15:37:22Z)
MetricGold: Leveraging Text-To-Image Latent Diffusion Models for Metric Depth Estimation [9.639797094021988]
MetricGoldは、生成拡散モデルの豊富な先行値を利用して、メートル法深さ推定を改善する新しいアプローチである。我々の実験は、多様なデータセットをまたいだ堅牢な一般化を実証し、よりシャープで高品質なメートル法深さ推定を導出する。
論文参考訳（メタデータ） (2024-11-16T20:59:01Z)
Robust Geometry-Preserving Depth Estimation Using Differentiable Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文参考訳（メタデータ） (2023-09-18T12:36:39Z)
DEHRFormer: Real-time Transformer for Depth Estimation and Haze Removal from Varicolored Haze Scenes [10.174140482558904]
そこで本研究では,画像深度推定とヘイズ除去を同時に行うリアルタイムトランスフォーマを提案する。 DEHRFormerは1つのエンコーダと2つのタスク固有のデコーダで構成される。対照的な学習とドメイン整合性学習を利用して、現実のデハジングにおける弱い一般化問題に取り組む新しい学習パラダイムを導入する。
論文参考訳（メタデータ） (2023-03-13T07:47:18Z)
SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文参考訳（メタデータ） (2022-11-07T16:17:47Z)
Unsupervised Single-shot Depth Estimation using Perceptual Reconstruction [0.0]
この研究は、生成ニューラルネットワークの分野における最新の進歩を示し、それらを活用して完全に教師なしの単発深度合成を行う。 RGB-to-deepthとdeep-to-RGB転送用の2つのジェネレータを実装し,Wasserstein-1距離と新しい知覚再構成項を用いて同時に最適化した。本研究で得られた成果は、実世界のアプリケーションにおいて、教師なし単発深度推定の大きな可能性を示している。
論文参考訳（メタデータ） (2022-01-28T15:11:34Z)
Occlusion-aware Unsupervised Learning of Depth from 4-D Light Fields [50.435129905215284]
4次元光場処理と解析のための教師なし学習に基づく深度推定法を提案する。光場データの特異な幾何学構造に関する基礎知識に基づいて,光場ビューのサブセット間の角度コヒーレンスを探索し,深度マップを推定する。提案手法は,従来の手法と同等の精度で計算コストを低減した深度マップを作成できる。
論文参考訳（メタデータ） (2021-06-06T06:19:50Z)
Function4D: Real-time Human Volumetric Capture from Very Sparse Consumer RGBD Sensors [67.88097893304274]
時間的融合と深い暗黙機能を組み合わせた人間の体積捕獲法を提案する。トポロジーの整合性とともに深度観測を融合する動的スライディングを提案する。
論文参考訳（メタデータ） (2021-05-05T04:12:38Z)
Domain Adaptive Monocular Depth Estimation With Semantic Information [13.387521845596149]
ドメインギャップを狭めるためにセマンティック情報を活用した対比トレーニングモデルを提案する。提案したコンパクトモデルは,複雑な最新モデルに匹敵する最先端性能を実現する。
論文参考訳（メタデータ） (2021-04-12T18:50:41Z)
Unpaired Single-Image Depth Synthesis with cycle-consistent Wasserstein GANs [1.0499611180329802]
実環境深度のリアルタイム推定は、様々な自律システムタスクにとって必須のモジュールである。本研究では、生成型ニューラルネットワークの分野における最近の進歩を、教師なしの単一画像深度合成に活用する。
論文参考訳（メタデータ） (2021-03-31T09:43:38Z)
DeFeat-Net: General Monocular Depth via Simultaneous Unsupervised Representation Learning [65.94499390875046]
DeFeat-Netは、クロスドメインの高密度な特徴表現を同時に学習するアプローチである。提案手法は, 誤差対策を全て10%程度減らすことで, 最先端技術よりも優れる。
論文参考訳（メタデータ） (2020-03-30T13:10:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。