論文の概要: Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator
- arxiv url: http://arxiv.org/abs/2502.19204v1
- Date: Wed, 26 Feb 2025 15:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:26.916465
- Title: Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator
- Title(参考訳): 深度を測る:より強い単分子深度推定器を作る蒸留法
- Authors: Xiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang,
- Abstract要約: 単眼深度推定(MDE)は、1枚のRGB画像からシーン深度を予測することを目的としており、3Dシーン理解において重要な役割を果たす。
ゼロショットMDEの最近の進歩は、様々な場面における一般化を改善するために、正規化深度表現と蒸留に基づく学習を活用している。
擬似ラベル品質を高めるために,グローバルおよびローカルな深度手がかりを統合したクロスコンテキスト蒸留を提案する。
- 参考スコア(独自算出の注目度): 16.85227735626027
- License:
- Abstract: Monocular depth estimation (MDE) aims to predict scene depth from a single RGB image and plays a crucial role in 3D scene understanding. Recent advances in zero-shot MDE leverage normalized depth representations and distillation-based learning to improve generalization across diverse scenes. However, current depth normalization methods for distillation, relying on global normalization, can amplify noisy pseudo-labels, reducing distillation effectiveness. In this paper, we systematically analyze the impact of different depth normalization strategies on pseudo-label distillation. Based on our findings, we propose Cross-Context Distillation, which integrates global and local depth cues to enhance pseudo-label quality. Additionally, we introduce a multi-teacher distillation framework that leverages complementary strengths of different depth estimation models, leading to more robust and accurate depth predictions. Extensive experiments on benchmark datasets demonstrate that our approach significantly outperforms state-of-the-art methods, both quantitatively and qualitatively.
- Abstract(参考訳): 単眼深度推定(MDE)は、1枚のRGB画像からシーン深度を予測することを目的としており、3Dシーン理解において重要な役割を果たす。
ゼロショットMDEの最近の進歩は、様々な場面における一般化を改善するために、正規化深度表現と蒸留に基づく学習を活用している。
しかし、グローバルな正規化に依存する蒸留における現在の深度正規化法は、ノイズの多い擬似ラベルを増幅し、蒸留効率を低下させることができる。
本稿では, 深度正規化戦略が擬似ラベル蒸留に及ぼす影響を系統的に解析する。
そこで本研究では, 擬似ラベル品質を高めるために, グローバルおよびローカルな深度工法を統合したクロスコンテキスト蒸留法を提案する。
さらに,異なる深度推定モデルの相補的強度を利用して,より堅牢で正確な深度予測を行う多教師蒸留フレームワークを導入する。
ベンチマークデータセットの大規模な実験により、我々の手法は、定量的にも定性的にも最先端の手法を大幅に上回っていることが示された。
関連論文リスト
- Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion [51.69876947593144]
奥行き完了のための既存の手法は、厳密に制約された設定で動作する。
単眼深度推定の進歩に触発されて,画像条件の深度マップ生成として深度補完を再構成した。
Marigold-DCは、単分子深度推定のための事前訓練された潜伏拡散モデルを構築し、試験時間ガイダンスとして深度観測を注入する。
論文 参考訳(メタデータ) (2024-12-18T00:06:41Z) - SharpDepth: Sharpening Metric Depth Predictions Using Diffusion Distillation [17.88798247412388]
SharpDepthは、識別深度推定法の計量精度と、生成法によって通常達成されるきめ細かい境界シャープネスを組み合わせている。
我々の手法は、距離精度と詳細な境界保存を統合することでこれらの制限を橋渡しし、計量的精度と視覚的シャープさの両方の深さ予測をもたらす。
論文 参考訳(メタデータ) (2024-11-27T11:07:27Z) - Q-SLAM: Quadric Representations for Monocular SLAM [85.82697759049388]
四角形のレンズを通して体積表現を再現する。
我々は、RGB入力からノイズの深い深さ推定を正すために二次仮定を用いる。
本研究では,新たな二次分割変換器を導入し,二次情報を集約する。
論文 参考訳(メタデータ) (2024-03-12T23:27:30Z) - Sparse Depth-Guided Attention for Accurate Depth Completion: A
Stereo-Assisted Monitored Distillation Approach [7.902840502973506]
本研究では,教師モデルとしてステレオモデルを導入し,学生モデルの深度補修精度を向上させる。
自己教師型情報提供には,多視点奥行きの整合性やマルチスケールの最小再計画も活用する。
論文 参考訳(メタデータ) (2023-03-28T09:23:19Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - Hierarchical Normalization for Robust Monocular Depth Estimation [85.2304122536962]
本研究では,空間情報と深度に基づいて,階層的に深度表現を正規化する新しいマルチスケール深度正規化手法を提案する。
実験の結果,提案手法は従来の正規化手法よりも著しく優れていた。
論文 参考訳(メタデータ) (2022-10-18T08:18:29Z) - RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation [27.679479140943503]
本研究では,シーン深さのスケール不変性を学習し,自己教師付き単眼深度推定法(RA-Depth)を提案する。
RA-Depthは最先端の性能を達成し、解像度適応の優れた能力を示す。
論文 参考訳(メタデータ) (2022-07-25T08:49:59Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。