論文の概要: Scale-invariant and View-relational Representation Learning for Full Surround Monocular Depth
- arxiv url: http://arxiv.org/abs/2512.08700v1
- Date: Tue, 09 Dec 2025 15:17:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.016737
- Title: Scale-invariant and View-relational Representation Learning for Full Surround Monocular Depth
- Title(参考訳): 全周的な単眼深度に対するスケール不変およびビュー関連表現学習
- Authors: Kyumin Hwang, Wonhyeok Choi, Kiljoon Han, Wonjoon Choi, Minwoo Choi, Yongcheon Na, Minwoo Park, Sunghoon Im,
- Abstract要約: 本稿では,基礎モデルから軽量FSMDEネットワークへ堅牢な深度知識を伝達する知識蒸留戦略を提案する。
提案手法は,実時間要求を満たすことで,性能と効率の良好なトレードオフを実現する。
- 参考スコア(独自算出の注目度): 21.216686704928474
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent foundation models demonstrate strong generalization capabilities in monocular depth estimation. However, directly applying these models to Full Surround Monocular Depth Estimation (FSMDE) presents two major challenges: (1) high computational cost, which limits real-time performance, and (2) difficulty in estimating metric-scale depth, as these models are typically trained to predict only relative depth. To address these limitations, we propose a novel knowledge distillation strategy that transfers robust depth knowledge from a foundation model to a lightweight FSMDE network. Our approach leverages a hybrid regression framework combining the knowledge distillation scheme--traditionally used in classification--with a depth binning module to enhance scale consistency. Specifically, we introduce a cross-interaction knowledge distillation scheme that distills the scale-invariant depth bin probabilities of a foundation model into the student network while guiding it to infer metric-scale depth bin centers from ground-truth depth. Furthermore, we propose view-relational knowledge distillation, which encodes structural relationships among adjacent camera views and transfers them to enhance cross-view depth consistency. Experiments on DDAD and nuScenes demonstrate the effectiveness of our method compared to conventional supervised methods and existing knowledge distillation approaches. Moreover, our method achieves a favorable trade-off between performance and efficiency, meeting real-time requirements.
- Abstract(参考訳): 最近の基礎モデルは、単分子深度推定において強力な一般化能力を示す。
しかし、FSMDE(Full Surround Monocular Depth Estimation)にこれらのモデルを直接適用することは、(1)リアルタイム性能を制限する高い計算コスト、(2)相対深度のみを予測するために訓練されるため、計量スケールの深さを推定することの難しさの2つの大きな課題を提示する。
これらの制約に対処するため,基礎モデルから軽量FSMDEネットワークへ堅牢な深度知識を伝達する新しい知識蒸留戦略を提案する。
提案手法では,従来の知識蒸留方式と深度ビンニングモジュールを組み合わせたハイブリッド回帰フレームワークを用いて,スケールの整合性を高める。
具体的には,基礎モデルのスケール不変深度ビン確率を,地中深度からメートルスケール深度ビン中心を推定し,学生ネットワークに蒸留するクロスインタラクション知識蒸留手法を提案する。
さらに、隣接するカメラビュー間の構造的関係を符号化し、それらを転送して、ビュー間の深さの整合性を高めるビュー関連知識蒸留を提案する。
DDADおよびnuScenesの実験により,従来の指導法や既存の知識蒸留法と比較して,本手法の有効性が示された。
さらに,本手法は,実時間要求を満たすことで,性能と効率の良好なトレードオフを実現する。
関連論文リスト
- Region-aware Depth Scale Adaptation with Sparse Measurements [8.532410904912922]
本研究では,基礎モデルの相対スケール予測を計量スケールの深さに適応させるために,非学習に基づくアプローチを導入する。
本手法では, 再訓練も微調整も必要とせず, 元の基礎モデルの強力な一般化能力を保っている。
論文 参考訳(メタデータ) (2025-07-20T09:36:57Z) - MetricGold: Leveraging Text-To-Image Latent Diffusion Models for Metric Depth Estimation [9.639797094021988]
MetricGoldは、生成拡散モデルの豊富な先行値を利用して、メートル法深さ推定を改善する新しいアプローチである。
我々の実験は、多様なデータセットをまたいだ堅牢な一般化を実証し、よりシャープで高品質なメートル法深さ推定を導出する。
論文 参考訳(メタデータ) (2024-11-16T20:59:01Z) - DepthSplat: Connecting Gaussian Splatting and Depth [90.06180236292866]
ガウススプラッティングと深さ推定を結合するDepthSplatを提案する。
ガウススプラッティングは、強力な深度モデルを学ぶための教師なし事前学習の目的として機能することを示す。
我々のDepthSplatは、ScanNet、RealEstate10K、DL3DVデータセットの最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-17T17:59:58Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Stealing Stable Diffusion Prior for Robust Monocular Depth Estimation [33.140210057065644]
本稿では, 単分子深度推定に先立って, ステアリング安定拡散 (SSD) という新しい手法を提案する。
このアプローチは、安定拡散を利用して、挑戦的な条件を模倣した合成画像を生成することにより、この制限に対処する。
このアプローチの有効性は、nuScenesとOxford RobotCarで評価されている。
論文 参考訳(メタデータ) (2024-03-08T05:06:31Z) - EC-Depth: Exploring the consistency of self-supervised monocular depth estimation in challenging scenes [36.44321460703116]
EC-Depthは、堅牢な深さ推定を実現するための、新しい自己教師型2段階フレームワークである。
第1段階では、信頼性の高い監督を標準から挑戦的な場面に広めるために、奥行き整合正則化を提案する。
第2段階では、疑似ラベルの品質を向上させるために、一貫性に基づく新しい擬似ラベルフィルタリング戦略を採用する。
論文 参考訳(メタデータ) (2023-10-12T05:34:45Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - SelfTune: Metrically Scaled Monocular Depth Estimation through
Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文 参考訳(メタデータ) (2022-03-10T12:28:42Z) - Fine-grained Semantics-aware Representation Enhancement for
Self-supervised Monocular Depth Estimation [16.092527463250708]
自己教師付き単分子深度推定を改善するための新しいアイデアを提案する。
我々は、幾何学的表現強化に暗黙的な意味知識を取り入れることに注力する。
提案手法をKITTIデータセット上で評価し,提案手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-08-19T17:50:51Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。