論文の概要: Foundation Models Meet Low-Cost Sensors: Test-Time Adaptation for Rescaling Disparity for Zero-Shot Metric Depth Estimation
- arxiv url: http://arxiv.org/abs/2412.14103v1
- Date: Wed, 18 Dec 2024 17:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:47:48.379176
- Title: Foundation Models Meet Low-Cost Sensors: Test-Time Adaptation for Rescaling Disparity for Zero-Shot Metric Depth Estimation
- Title(参考訳): 低コストセンサを用いたファンデーションモデル:ゼロショット距離推定のための差分再スケーリングのためのテスト時間適応
- Authors: Rémi Marsal, Alexandre Chapoutot, Philippe Xu, David Filliat,
- Abstract要約: 本稿では,低コストセンサや低解像度LiDARなどの技術によって提供される3Dポイントを用いて,奥行き予測を再スケールする手法を提案する。
実験では,他の距離深度推定法との比較と,微調整手法との比較による競合性について検討した。
- 参考スコア(独自算出の注目度): 46.037640130193566
- License:
- Abstract: The recent development of foundation models for monocular depth estimation such as Depth Anything paved the way to zero-shot monocular depth estimation. Since it returns an affine-invariant disparity map, the favored technique to recover the metric depth consists in fine-tuning the model. However, this stage is costly to perform because of the training but also due to the creation of the dataset. It must contain images captured by the camera that will be used at test time and the corresponding ground truth. Moreover, the fine-tuning may also degrade the generalizing capacity of the original model. Instead, we propose in this paper a new method to rescale Depth Anything predictions using 3D points provided by low-cost sensors or techniques such as low-resolution LiDAR, stereo camera, structure-from-motion where poses are given by an IMU. Thus, this approach avoids fine-tuning and preserves the generalizing power of the original depth estimation model while being robust to the noise of the sensor or of the depth model. Our experiments highlight improvements relative to other metric depth estimation methods and competitive results compared to fine-tuned approaches. Code available at https://gitlab.ensta.fr/ssh/monocular-depth-rescaling.
- Abstract(参考訳): 近年、Depth Anythingのような単眼深度推定の基礎モデルが開発され、ゼロショット単眼深度推定への道が開かれた。
アフィン不変不均等写像を返すので、計量深度を復元する好適な手法は、モデルを微調整することである。
しかし、このステージはトレーニングのためではなく、データセットの作成のために実行するのにコストがかかる。
テスト時に使用されるカメラが撮影した画像とそれに対応する地上の真実を含む必要がある。
さらに、微調整により元のモデルの一般化能力も低下する可能性がある。
そこで本研究では,低解像度のLiDAR,ステレオカメラ,IMUがポーズを提示する構造からの移動といった,低コストなセンサや技術によって提供される3Dポイントを用いて,奥行き予測を再スケールする手法を提案する。
したがって, センサのノイズや深度モデルに頑健でありながら, 微調整を回避し, 元の深度推定モデルの一般化力を保っている。
実験では,他の距離深度推定法との比較と,微調整手法との比較による競合性について検討した。
コードはhttps://gitlab.ensta.fr/ssh/monocular-depth-rescaling.comで公開されている。
関連論文リスト
- Revisiting Gradient-based Uncertainty for Monocular Depth Estimation [10.502852645001882]
単分子深度推定モデルに対する勾配に基づく不確実性推定を導入する。
我々は,本手法が再トレーニングを伴わずに不確実性を決定するのに有効であることを実証した。
特に、単分子配列で訓練されたモデルにおいて、最も不確実性が高いため、本手法は関連するアプローチよりも優れる。
論文 参考訳(メタデータ) (2025-02-09T17:21:41Z) - Metric3Dv2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation [74.28509379811084]
Metric3D v2は、ゼロショット距離深さと1枚の画像からの表面正規推定のための幾何学的基礎モデルである。
距離深度推定と表面正規度推定の両方の解を提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2024-03-22T02:30:46Z) - Metrically Scaled Monocular Depth Estimation through Sparse Priors for
Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。
このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。
この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-25T16:32:31Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - Variational Monocular Depth Estimation for Reliability Prediction [12.951621755732544]
教師付き学習手法の代替として,単眼深度推定のための自己教師付き学習が広く研究されている。
従来はモデル構造の変更による深度推定の精度向上に成功している。
本稿では, 単眼深度推定のための変分モデルを理論的に定式化し, 推定深度画像の信頼性を推定する。
論文 参考訳(メタデータ) (2020-11-24T06:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。