論文の概要: Distilling Monocular Foundation Model for Fine-grained Depth Completion
- arxiv url: http://arxiv.org/abs/2503.16970v1
- Date: Fri, 21 Mar 2025 09:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:56:46.314964
- Title: Distilling Monocular Foundation Model for Fine-grained Depth Completion
- Title(参考訳): 微細深度補完のための蒸留単分子基礎モデル
- Authors: Yingping Liang, Yutao Hu, Wenqi Shao, Ying Fu,
- Abstract要約: 本研究では,深度調整のための2段階の知識蒸留フレームワークを提案する。
第1段階では、自然画像から多様なトレーニングデータを生成し、幾何学的知識を蒸留して深度補正を行う。
第2段階では、実世界のデータセットを微調整する際に、スケールとシフト不変の損失を用いて実世界のスケールを学習する。
- 参考スコア(独自算出の注目度): 17.603217168518356
- License:
- Abstract: Depth completion involves predicting dense depth maps from sparse LiDAR inputs. However, sparse depth annotations from sensors limit the availability of dense supervision, which is necessary for learning detailed geometric features. In this paper, we propose a two-stage knowledge distillation framework that leverages powerful monocular foundation models to provide dense supervision for depth completion. In the first stage, we introduce a pre-training strategy that generates diverse training data from natural images, which distills geometric knowledge to depth completion. Specifically, we simulate LiDAR scans by utilizing monocular depth and mesh reconstruction, thereby creating training data without requiring ground-truth depth. Besides, monocular depth estimation suffers from inherent scale ambiguity in real-world settings. To address this, in the second stage, we employ a scale- and shift-invariant loss (SSI Loss) to learn real-world scales when fine-tuning on real-world datasets. Our two-stage distillation framework enables depth completion models to harness the strengths of monocular foundation models. Experimental results demonstrate that models trained with our two-stage distillation framework achieve state-of-the-art performance, ranking \textbf{first place} on the KITTI benchmark. Code is available at https://github.com/Sharpiless/DMD3C
- Abstract(参考訳): 深さ補完は、疎LiDAR入力から密度深度マップを予測することを伴う。
しかし、センサーからの疎度アノテーションは、詳細な幾何学的特徴を学習するために必要な高密度監視の可用性を制限する。
本稿では, 強力な単分子基盤モデルを利用して深度補正を行うための2段階の知識蒸留フレームワークを提案する。
最初の段階では、自然画像から多様なトレーニングデータを生成する事前学習戦略を導入し、幾何学的知識を蒸留して深度補正を行う。
具体的には、単眼深度とメッシュ再構成を利用してLiDARスキャンをシミュレートし、地中深度を必要とせずにトレーニングデータを生成する。
さらに、単分子深度推定は、現実世界の設定において固有のスケールのあいまいさに悩まされる。
これを解決するために、第2段階では、実世界のデータセットを微調整する際に、実世界のスケールを学習するためにスケール・アンド・シフト不変損失(SSIロス)を用いる。
我々の2段階蒸留フレームワークは, 単分子基礎モデルの強度を生かした深度補修モデルを実現する。
実験結果から,KITTIベンチマークにおいて,2段階蒸留フレームワークを用いてトレーニングしたモデルが最先端の性能を達成し,textbf{first place} が評価された。
コードはhttps://github.com/Sharpiless/DMD3Cで入手できる。
関連論文リスト
- DepthLab: From Partial to Complete [80.58276388743306]
不足する値は、幅広いアプリケーションにわたる深度データにとって共通の課題である。
この作業は、イメージ拡散プリエントを利用した基礎深度塗装モデルであるDepthLabと、このギャップを埋めるものだ。
提案手法は,3Dシーンのインペイント,テキストから3Dシーン生成,DUST3Rによるスパースビュー再構成,LiDAR深度補完など,様々なダウンストリームタスクにおいて有用であることを示す。
論文 参考訳(メタデータ) (2024-12-24T04:16:38Z) - MetricGold: Leveraging Text-To-Image Latent Diffusion Models for Metric Depth Estimation [9.639797094021988]
MetricGoldは、生成拡散モデルの豊富な先行値を利用して、メートル法深さ推定を改善する新しいアプローチである。
我々の実験は、多様なデータセットをまたいだ堅牢な一般化を実証し、よりシャープで高品質なメートル法深さ推定を導出する。
論文 参考訳(メタデータ) (2024-11-16T20:59:01Z) - DepthSplat: Connecting Gaussian Splatting and Depth [90.06180236292866]
ガウススプラッティングと深さ推定を結合するDepthSplatを提案する。
まず,事前学習した単眼深度特徴を生かして,頑健な多眼深度モデルを提案する。
また,ガウス的スプラッティングは教師なし事前学習の目的として機能することを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:58Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - Towards Better Data Exploitation in Self-Supervised Monocular Depth
Estimation [14.262669370264994]
本稿では、データセットのトレーニングの可能性を完全に活用するために、Resizing-CroppingとSplitting-Permutingという2つのデータ拡張手法を用いる。
具体的には、原画像と生成した2つの拡張イメージを同時にトレーニングパイプラインに供給し、自己蒸留を行う。
実験により,KITTIベンチマークを用いて,地中真理と地中真理の両面から,最先端の性能を実証した。
論文 参考訳(メタデータ) (2023-09-11T06:18:05Z) - Monocular Depth Estimation using Diffusion Models [39.27361388836347]
トレーニングデータにおけるノイズや不完全な深度マップに起因する問題に対処するイノベーションを導入する。
教師付き訓練におけるデータの可用性の限界に対処するために,自己教師付き画像-画像間翻訳タスクの事前学習を利用する。
我々のDepthGenモデルは、屋内のNYUデータセット上で、および屋外のKITTIデータセット上でのSOTA結果に近いSOTA性能を達成する。
論文 参考訳(メタデータ) (2023-02-28T18:08:21Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Joint Prediction of Monocular Depth and Structure using Planar and
Parallax Geometry [4.620624344434533]
教師付き学習深度推定法は、LiDARデータのような高品質な地上構造で訓練すると、優れた性能が得られる。
提案手法は,有望な平面とパララックス幾何学パイプラインの構造情報と深度情報を組み合わせたU-Net教師あり学習ネットワークの構築である。
我々のモデルは細い物体と縁の深さ予測に優れており、構造予測ベースラインと比較して、より頑健に機能する。
論文 参考訳(メタデータ) (2022-07-13T17:04:05Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。