論文の概要: Language as Prior, Vision as Calibration: Metric Scale Recovery for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2601.01457v1
- Date: Sun, 04 Jan 2026 09:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.364207
- Title: Language as Prior, Vision as Calibration: Metric Scale Recovery for Monocular Depth Estimation
- Title(参考訳): 校正としての視覚と先行する言語:単眼深度推定のための計量的スケール回復
- Authors: Mingxing Zhan, Li Zhang, Beibei Wang, Yingjie Wang, Zenglin Shi,
- Abstract要約: 相対深度基礎モデルは良好に伝達されるが、同定不可能なグローバルスケールとドメインシフト感度の上昇により、単分子メートル法深度は未定のままである。
凍結したバックボーンキャリブレーション設定の下では,画像固有のアフィン変換を逆の深さで行い,相対深度バックボーンとCLIPテキストエンコーダを固定しつつ,軽量なキャリブレーションヘッドのみを訓練する。
- 参考スコア(独自算出の注目度): 13.80320847555059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relative-depth foundation models transfer well, yet monocular metric depth remains ill-posed due to unidentifiable global scale and heightened domain-shift sensitivity. Under a frozen-backbone calibration setting, we recover metric depth via an image-specific affine transform in inverse depth and train only lightweight calibration heads while keeping the relative-depth backbone and the CLIP text encoder fixed. Since captions provide coarse but noisy scale cues that vary with phrasing and missing objects, we use language to predict an uncertainty-aware envelope that bounds feasible calibration parameters in an unconstrained space, rather than committing to a text-only point estimate. We then use pooled multi-scale frozen visual features to select an image-specific calibration within this envelope. During training, a closed-form least-squares oracle in inverse depth provides per-image supervision for learning the envelope and the selected calibration. Experiments on NYUv2 and KITTI improve in-domain accuracy, while zero-shot transfer to SUN-RGBD and DDAD demonstrates improved robustness over strong language-only baselines.
- Abstract(参考訳): 相対深度基礎モデルは良好に伝達されるが、同定不可能なグローバルスケールとドメインシフト感度の上昇により、単分子メートル法深度は未定のままである。
凍結したバックボーンキャリブレーション設定の下では,画像固有のアフィン変換を逆の深さで行い,相対深度バックボーンとCLIPテキストエンコーダを固定しつつ,軽量なキャリブレーションヘッドのみを訓練する。
キャプションは、フレーズや欠落したオブジェクトによって異なる粗いがノイズの多いスケールの手がかりを提供するため、テキストのみの点推定にコミットするのではなく、不確実性を意識したエンベロープを予測し、制約のない空間でキャリブレーションパラメータを束縛する。
次に、この封筒内の画像固有のキャリブレーションを選択するために、プールされたマルチスケールの凍結視覚特徴を使用する。
トレーニング中、逆深さの閉形式の最小二乗オラクルは、エンベロープと選択された校正を学習するためのイメージごとの監督を提供する。
NYUv2とKITTIの実験では、ドメイン内の精度が向上し、SUN-RGBDとDDADへのゼロショット転送は、強い言語のみのベースラインよりも堅牢性の向上を示している。
関連論文リスト
- Uncertainty-Guided Selective Adaptation Enables Cross-Platform Predictive Fluorescence Microscopy [65.15943255667733]
自動深度選択機能付きサブネットワーク画像翻訳ADDA(SIT-ADDA-Auto)について紹介する。
より深い層を凍結しながら、最も初期の畳み込み層のみを適応させることで、信頼できる転送が得られることを示す。
この結果から,マイクロスコープにおけるラベルなし適応の設計規則とフィールド設定のレシピが提供され,コードが公開されている。
論文 参考訳(メタデータ) (2025-11-15T03:01:05Z) - Loc$^2$: Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching [80.57282092735991]
本稿では,高精度かつ解釈可能なクロスビューローカライズ手法を提案する。
地上画像の3自由度(DoF)のポーズを、その局所的な特徴と基準空中画像とをマッチングすることによって推定する。
実験では、クロスエリアテストや未知の向きといった挑戦的なシナリオにおいて、最先端の精度を示す。
論文 参考訳(メタデータ) (2025-09-11T18:52:16Z) - C-TPT: Calibrated Test-Time Prompt Tuning for Vision-Language Models via Text Feature Dispersion [54.81141583427542]
深層学習において,ラベル付きデータを必要としない微調整手法としてテスト時間適応が注目されている。
本稿では,CLIPの固有特性を利用したテスト時プロンプトチューニング時の校正について検討する。
そこで本研究では,C-TPT(Calibrated Test-time Prompt Tuning)という,キャリブレーションの強化によるテスト時間中のプロンプトの最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T04:08:29Z) - Towards Better Gradient Consistency for Neural Signed Distance Functions
via Level Set Alignment [50.892158511845466]
レベルセットの並列性によって示される場の勾配一貫性が、推論精度に影響を及ぼす重要な要因であることを示す。
そこで本研究では,次数集合の並列性を評価するためのレベルセットアライメント損失を提案する。
論文 参考訳(メタデータ) (2023-05-19T11:28:05Z) - Differentiable Uncalibrated Imaging [25.67247660827913]
本稿では,センサ位置や投影角などの測定座標の不確実性に対処する,識別可能なイメージングフレームワークを提案する。
入力座標に対して自然に微分可能な暗黙のニューラルネットワーク、別名ニューラルフィールドを適用する。
測定表現を協調的に適合させ、不確実な測定座標を最適化し、一貫したキャリブレーションを保証する画像再構成を行うため、微分性は鍵となる。
論文 参考訳(メタデータ) (2022-11-18T22:48:09Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Lidar and Camera Self-Calibration using CostVolume Network [3.793450497896671]
LiDARとカメラ間のパラメータを直接レグレッシブする代わりに、初期キャリブレーションから地上の真実へのデキャリブレーション偏差を予測します。
提案手法は, 平均絶対校正誤差が0.297cm, 回転誤差が0.017degであり, 校正誤差が1.5m, 20degであった。
論文 参考訳(メタデータ) (2020-12-27T09:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。