論文の概要: VGLD: Visually-Guided Linguistic Disambiguation for Monocular Depth Scale Recovery
- arxiv url: http://arxiv.org/abs/2505.02704v3
- Date: Sun, 13 Jul 2025 06:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 14:36:07.072222
- Title: VGLD: Visually-Guided Linguistic Disambiguation for Monocular Depth Scale Recovery
- Title(参考訳): VGLD:単眼深度スケール回復のための視覚誘導言語的曖昧化
- Authors: Bojin Wu, Jing Chen,
- Abstract要約: VGLD(Visually-Guided Linguistic Disambiguation)は、テキスト入力の曖昧さを解決するために高レベルな視覚意味論を組み込んだフレームワークである。
画像とテキストの両方を共同で符号化することにより、VGLDは、相対深度マップとメートル法スケールを一致させる大域的線形変換パラメータのセットを予測する。
その結果,VGLDは不整合あるいは曖昧な言語によるスケール推定バイアスを著しく軽減し,ロバストかつ正確な計量予測を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 2.8834278113855896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation can be broadly categorized into two directions: relative depth estimation, which predicts normalized or inverse depth without absolute scale, and metric depth estimation, which aims to recover depth with real-world scale. While relative methods are flexible and data-efficient, their lack of metric scale limits their utility in downstream tasks. A promising solution is to infer absolute scale from textual descriptions. However, such language-based recovery is highly sensitive to natural language ambiguity, as the same image may be described differently across perspectives and styles. To address this, we introduce VGLD (Visually-Guided Linguistic Disambiguation), a framework that incorporates high-level visual semantics to resolve ambiguity in textual inputs. By jointly encoding both image and text, VGLD predicts a set of global linear transformation parameters that align relative depth maps with metric scale. This visually grounded disambiguation improves the stability and accuracy of scale estimation. We evaluate VGLD on representative models, including MiDaS and DepthAnything, using standard indoor (NYUv2) and outdoor (KITTI) benchmarks. Results show that VGLD significantly mitigates scale estimation bias caused by inconsistent or ambiguous language, achieving robust and accurate metric predictions. Moreover, when trained on multiple datasets, VGLD functions as a universal and lightweight alignment module, maintaining strong performance even in zero-shot settings. Code will be released upon acceptance.
- Abstract(参考訳): 単分子深度推定は, 絶対スケールなしで正規化あるいは逆深度を予測する相対深度推定と, 実世界のスケールで深度を復元することを目的とした計量深度推定の2つの方向に分けられる。
相対的な手法は柔軟でデータ効率が良いが、その計量スケールの欠如は下流タスクにおける有用性を制限している。
有望な解決策は、テキスト記述から絶対スケールを推測することである。
しかし、このような言語に基づくリカバリは、視点やスタイルによって同じイメージが異なるため、自然言語のあいまいさに非常に敏感である。
テキスト入力におけるあいまいさを解決するために,高レベルの視覚的意味論を組み込んだVGLD(Visually-Guided Linguistic Disambiguation)を導入する。
画像とテキストの両方を共同で符号化することにより、VGLDは、相対深度マップとメートル法スケールを一致させる大域的線形変換パラメータのセットを予測する。
この視覚的に接地された曖昧さは、スケール推定の安定性と精度を向上させる。
室内標準 (NYUv2) と屋外基準 (KITTI) を用いて, MiDaS や DepthAnything などの代表モデルを用いた VGLD の評価を行った。
その結果,VGLDは不整合あるいは曖昧な言語によるスケール推定バイアスを著しく軽減し,ロバストかつ正確な計量予測を達成できることが示唆された。
さらに、複数のデータセットでトレーニングする場合、VGLDは普遍的で軽量なアライメントモジュールとして機能し、ゼロショット設定でも強力なパフォーマンスを維持する。
コードは受理時にリリースされる。
関連論文リスト
- TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast [7.127920563966129]
現在の単分子深度推定法は主にメートル法深度推定(MMDE)と相対深度推定(MRDE)に分けられる。
MMDEは、計量スケールの深さを推定するが、しばしば特定の領域に限られる。MRDEは、異なる領域にわたってよく一般化するが、下流のアプリケーションを妨げる不確実なスケールを持つ。
TR2Mはテキスト記述と画像の両方を入力として利用し、2つの再スケールマップを推定し、画素レベルで相対深度をメートル法深度に転送する。
論文 参考訳(メタデータ) (2025-06-16T11:50:00Z) - Metric-Solver: Sliding Anchored Metric Depth Estimation from a Single Image [51.689871870692194]
Metric-rはスライディングアンカーを用いた新しい距離深さ推定法である。
我々の設計は多様な環境にまたがって統一的かつ適応的な深度表現を可能にする。
論文 参考訳(メタデータ) (2025-04-16T14:12:25Z) - RSA: Resolving Scale Ambiguities in Monocular Depth Estimators through Language Descriptions [47.614203035800735]
一つの画像から深度を推定することは、視線投影によるスケールの損失による不適切な問題である。
我々の目標は、線形変換によりメートルスケールの深度マップを復元することである。
提案手法は,画像中のオブジェクトを記述したテキストキャプションを入力として,線形変換のパラメータを出力する。
論文 参考訳(メタデータ) (2024-10-03T19:18:13Z) - TanDepth: Leveraging Global DEMs for Metric Monocular Depth Estimation in UAVs [5.6168844664788855]
本研究は,推定時間における相対的推定から距離深度を求めるための実用的スケール回復手法であるTanDepthを提示する。
提案手法は,GDEM(Global Digital Elevation Models)のスパース計測をカメラビューに投影することで活用する。
推定深度マップから接地点を選択して、投影された基準点と相関するクラスフィルタシミュレーションへの適応を示す。
論文 参考訳(メタデータ) (2024-09-08T15:54:43Z) - ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - DVMNet++: Rethinking Relative Pose Estimation for Unseen Objects [59.51874686414509]
既存のアプローチでは、通常、接地構造オブジェクト境界ボックスと、多数の離散仮説を持つ近似3次元回転を用いて3次元翻訳を予測している。
本稿では,1回のパスで相対オブジェクトのポーズを計算するDeep Voxel Matching Network (DVMNet++)を提案する。
提案手法は,最先端手法と比較して計算コストの低い新しいオブジェクトに対して,より正確な相対的ポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T06:56:50Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data [110.29043712400912]
本稿では,アフィン変換に至るまでの多様なシーンにおける高品質な深度を予測できるモノクロ画像を用いた深度推定手法を提案する。
実験の結果,提案手法は,ゼロショットテスト設定と大差で8つのデータセットの先行手法より優れていた。
論文 参考訳(メタデータ) (2020-02-03T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。