論文の概要: Visually-Guided Linguistic Disambiguation for Monocular Depth Scale Recovery
- arxiv url: http://arxiv.org/abs/2505.02704v1
- Date: Mon, 05 May 2025 14:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.715537
- Title: Visually-Guided Linguistic Disambiguation for Monocular Depth Scale Recovery
- Title(参考訳): モノクルディープススケール回復のための視覚誘導言語的曖昧さ
- Authors: Bojin Wu, Jing Chen,
- Abstract要約: VGLDは、記述とともに対応する画像から高レベルな意味情報を組み込むことで、テキスト情報の影響を安定化する。
このアプローチはテキストの曖昧さを解消し、線形変換パラメータ(スカラー)の集合を強く出力する。
以上の結果から,VGLDは複数のデータセットでトレーニングした場合に共通アライメントモジュールとして機能し,ゼロショットシナリオにおいても高い性能を達成できることが示された。
- 参考スコア(独自算出の注目度): 2.8834278113855896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a robust method for monocular depth scale recovery. Monocular depth estimation can be divided into two main directions: (1) relative depth estimation, which provides normalized or inverse depth without scale information, and (2) metric depth estimation, which involves recovering depth with absolute scale. To obtain absolute scale information for practical downstream tasks, utilizing textual information to recover the scale of a relative depth map is a highly promising approach. However, since a single image can have multiple descriptions from different perspectives or with varying styles, it has been shown that different textual descriptions can significantly affect the scale recovery process. To address this issue, our method, VGLD, stabilizes the influence of textual information by incorporating high-level semantic information from the corresponding image alongside the textual description. This approach resolves textual ambiguities and robustly outputs a set of linear transformation parameters (scalars) that can be globally applied to the relative depth map, ultimately generating depth predictions with metric-scale accuracy. We validate our method across several popular relative depth models(MiDas, DepthAnything), using both indoor scenes (NYUv2) and outdoor scenes (KITTI). Our results demonstrate that VGLD functions as a universal alignment module when trained on multiple datasets, achieving strong performance even in zero-shot scenarios. Code is available at: https://github.com/pakinwu/VGLD.
- Abstract(参考訳): 単分子深度スケール回復のためのロバストな手法を提案する。
単分子深度推定は,(1)正規化あるいは逆深度を提供する相対深度推定法と,(2)絶対深度で深度を復元する計量深度推定法とに分けることができる。
テキスト情報を利用して、相対深度マップのスケールを復元する、実用的な下流タスクのための絶対スケール情報を得ることは、非常に有望なアプローチである。
しかし、一つの画像は異なる視点や異なるスタイルの複数の記述を持つことができるため、異なるテキスト記述がスケール回復過程に大きく影響を与えることが示されている。
この問題に対処するため,本手法であるVGLDは,テキスト記述とともに対応する画像からの高レベルな意味情報を組み込むことで,テキスト情報の影響を安定化する。
このアプローチはテキストの曖昧さを解消し、相対深度マップにグローバルに適用可能な線形変換パラメータ(スカラー)の集合を強固に出力し、最終的に計量スケールの精度で深度予測を生成する。
室内シーン (NYUv2) と屋外シーン (KITTI) の両方を用いて, 人気の相対深度モデル (MiDas, DepthAnything) の検証を行った。
以上の結果から,VGLDは複数のデータセットでトレーニングした場合に共通アライメントモジュールとして機能し,ゼロショットシナリオにおいても高い性能を達成できることが示された。
コードは、https://github.com/pakinwu/VGLD.comで入手できる。
関連論文リスト
- Metric-Solver: Sliding Anchored Metric Depth Estimation from a Single Image [51.689871870692194]
Metric-rはスライディングアンカーを用いた新しい距離深さ推定法である。
我々の設計は多様な環境にまたがって統一的かつ適応的な深度表現を可能にする。
論文 参考訳(メタデータ) (2025-04-16T14:12:25Z) - RSA: Resolving Scale Ambiguities in Monocular Depth Estimators through Language Descriptions [47.614203035800735]
一つの画像から深度を推定することは、視線投影によるスケールの損失による不適切な問題である。
我々の目標は、線形変換によりメートルスケールの深度マップを復元することである。
提案手法は,画像中のオブジェクトを記述したテキストキャプションを入力として,線形変換のパラメータを出力する。
論文 参考訳(メタデータ) (2024-10-03T19:18:13Z) - ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T06:56:50Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data [110.29043712400912]
本稿では,アフィン変換に至るまでの多様なシーンにおける高品質な深度を予測できるモノクロ画像を用いた深度推定手法を提案する。
実験の結果,提案手法は,ゼロショットテスト設定と大差で8つのデータセットの先行手法より優れていた。
論文 参考訳(メタデータ) (2020-02-03T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。