論文の概要: Visually-Guided Linguistic Disambiguation for Monocular Depth Scale Recovery
- arxiv url: http://arxiv.org/abs/2505.02704v1
- Date: Mon, 05 May 2025 14:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.715537
- Title: Visually-Guided Linguistic Disambiguation for Monocular Depth Scale Recovery
- Title(参考訳): モノクルディープススケール回復のための視覚誘導言語的曖昧さ
- Authors: Bojin Wu, Jing Chen,
- Abstract要約: VGLDは、記述とともに対応する画像から高レベルな意味情報を組み込むことで、テキスト情報の影響を安定化する。
このアプローチはテキストの曖昧さを解消し、線形変換パラメータ(スカラー)の集合を強く出力する。
以上の結果から,VGLDは複数のデータセットでトレーニングした場合に共通アライメントモジュールとして機能し,ゼロショットシナリオにおいても高い性能を達成できることが示された。
- 参考スコア(独自算出の注目度): 2.8834278113855896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a robust method for monocular depth scale recovery. Monocular depth estimation can be divided into two main directions: (1) relative depth estimation, which provides normalized or inverse depth without scale information, and (2) metric depth estimation, which involves recovering depth with absolute scale. To obtain absolute scale information for practical downstream tasks, utilizing textual information to recover the scale of a relative depth map is a highly promising approach. However, since a single image can have multiple descriptions from different perspectives or with varying styles, it has been shown that different textual descriptions can significantly affect the scale recovery process. To address this issue, our method, VGLD, stabilizes the influence of textual information by incorporating high-level semantic information from the corresponding image alongside the textual description. This approach resolves textual ambiguities and robustly outputs a set of linear transformation parameters (scalars) that can be globally applied to the relative depth map, ultimately generating depth predictions with metric-scale accuracy. We validate our method across several popular relative depth models(MiDas, DepthAnything), using both indoor scenes (NYUv2) and outdoor scenes (KITTI). Our results demonstrate that VGLD functions as a universal alignment module when trained on multiple datasets, achieving strong performance even in zero-shot scenarios. Code is available at: https://github.com/pakinwu/VGLD.
- Abstract(参考訳): 単分子深度スケール回復のためのロバストな手法を提案する。
単分子深度推定は,(1)正規化あるいは逆深度を提供する相対深度推定法と,(2)絶対深度で深度を復元する計量深度推定法とに分けることができる。
テキスト情報を利用して、相対深度マップのスケールを復元する、実用的な下流タスクのための絶対スケール情報を得ることは、非常に有望なアプローチである。
しかし、一つの画像は異なる視点や異なるスタイルの複数の記述を持つことができるため、異なるテキスト記述がスケール回復過程に大きく影響を与えることが示されている。
この問題に対処するため,本手法であるVGLDは,テキスト記述とともに対応する画像からの高レベルな意味情報を組み込むことで,テキスト情報の影響を安定化する。
このアプローチはテキストの曖昧さを解消し、相対深度マップにグローバルに適用可能な線形変換パラメータ(スカラー)の集合を強固に出力し、最終的に計量スケールの精度で深度予測を生成する。
室内シーン (NYUv2) と屋外シーン (KITTI) の両方を用いて, 人気の相対深度モデル (MiDas, DepthAnything) の検証を行った。
以上の結果から,VGLDは複数のデータセットでトレーニングした場合に共通アライメントモジュールとして機能し,ゼロショットシナリオにおいても高い性能を達成できることが示された。
コードは、https://github.com/pakinwu/VGLD.comで入手できる。
関連論文リスト
- TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast [7.127920563966129]
現在の単分子深度推定法は主にメートル法深度推定(MMDE)と相対深度推定(MRDE)に分けられる。
MMDEは、計量スケールの深さを推定するが、しばしば特定の領域に限られる。MRDEは、異なる領域にわたってよく一般化するが、下流のアプリケーションを妨げる不確実なスケールを持つ。
TR2Mはテキスト記述と画像の両方を入力として利用し、2つの再スケールマップを推定し、画素レベルで相対深度をメートル法深度に転送する。
論文 参考訳(メタデータ) (2025-06-16T11:50:00Z) - Metric-Solver: Sliding Anchored Metric Depth Estimation from a Single Image [51.689871870692194]
Metric-rはスライディングアンカーを用いた新しい距離深さ推定法である。
我々の設計は多様な環境にまたがって統一的かつ適応的な深度表現を可能にする。
論文 参考訳(メタデータ) (2025-04-16T14:12:25Z) - RSA: Resolving Scale Ambiguities in Monocular Depth Estimators through Language Descriptions [47.614203035800735]
一つの画像から深度を推定することは、視線投影によるスケールの損失による不適切な問題である。
我々の目標は、線形変換によりメートルスケールの深度マップを復元することである。
提案手法は,画像中のオブジェクトを記述したテキストキャプションを入力として,線形変換のパラメータを出力する。
論文 参考訳(メタデータ) (2024-10-03T19:18:13Z) - TanDepth: Leveraging Global DEMs for Metric Monocular Depth Estimation in UAVs [5.6168844664788855]
本研究は,推定時間における相対的推定から距離深度を求めるための実用的スケール回復手法であるTanDepthを提示する。
提案手法は,GDEM(Global Digital Elevation Models)のスパース計測をカメラビューに投影することで活用する。
推定深度マップから接地点を選択して、投影された基準点と相関するクラスフィルタシミュレーションへの適応を示す。
論文 参考訳(メタデータ) (2024-09-08T15:54:43Z) - ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - DVMNet++: Rethinking Relative Pose Estimation for Unseen Objects [59.51874686414509]
既存のアプローチでは、通常、接地構造オブジェクト境界ボックスと、多数の離散仮説を持つ近似3次元回転を用いて3次元翻訳を予測している。
本稿では,1回のパスで相対オブジェクトのポーズを計算するDeep Voxel Matching Network (DVMNet++)を提案する。
提案手法は,最先端手法と比較して計算コストの低い新しいオブジェクトに対して,より正確な相対的ポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T06:56:50Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data [110.29043712400912]
本稿では,アフィン変換に至るまでの多様なシーンにおける高品質な深度を予測できるモノクロ画像を用いた深度推定手法を提案する。
実験の結果,提案手法は,ゼロショットテスト設定と大差で8つのデータセットの先行手法より優れていた。
論文 参考訳(メタデータ) (2020-02-03T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。