論文の概要: TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast
- arxiv url: http://arxiv.org/abs/2506.13387v1
- Date: Mon, 16 Jun 2025 11:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.289964
- Title: TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast
- Title(参考訳): TR2M:言語記述とスケール指向コントラストを用いた単分子相対深さのメトリック深さへの変換
- Authors: Beilei Cui, Yiming Huang, Long Bai, Hongliang Ren,
- Abstract要約: 現在の単分子深度推定法は主にメートル法深度推定(MMDE)と相対深度推定(MRDE)に分けられる。
MMDEは、計量スケールの深さを推定するが、しばしば特定の領域に限られる。MRDEは、異なる領域にわたってよく一般化するが、下流のアプリケーションを妨げる不確実なスケールを持つ。
TR2Mはテキスト記述と画像の両方を入力として利用し、2つの再スケールマップを推定し、画素レベルで相対深度をメートル法深度に転送する。
- 参考スコア(独自算出の注目度): 7.127920563966129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a generalizable framework to transfer relative depth to metric depth. Current monocular depth estimation methods are mainly divided into metric depth estimation (MMDE) and relative depth estimation (MRDE). MMDEs estimate depth in metric scale but are often limited to a specific domain. MRDEs generalize well across different domains, but with uncertain scales which hinders downstream applications. To this end, we aim to build up a framework to solve scale uncertainty and transfer relative depth to metric depth. Previous methods used language as input and estimated two factors for conducting rescaling. Our approach, TR2M, utilizes both text description and image as inputs and estimates two rescale maps to transfer relative depth to metric depth at pixel level. Features from two modalities are fused with a cross-modality attention module to better capture scale information. A strategy is designed to construct and filter confident pseudo metric depth for more comprehensive supervision. We also develop scale-oriented contrastive learning to utilize depth distribution as guidance to enforce the model learning about intrinsic knowledge aligning with the scale distribution. TR2M only exploits a small number of trainable parameters to train on datasets in various domains and experiments not only demonstrate TR2M's great performance in seen datasets but also reveal superior zero-shot capabilities on five unseen datasets. We show the huge potential in pixel-wise transferring relative depth to metric depth with language assistance. (Code is available at: https://github.com/BeileiCui/TR2M)
- Abstract(参考訳): この研究は相対深度を計量深度に伝達する一般化可能な枠組みを示す。
現在の単分子深度推定法は主にメートル法深度推定(MMDE)と相対深度推定(MRDE)に分けられる。
MMDEはメートル法の深さを推定するが、しばしば特定の領域に制限される。
MRDEは、異なる領域にまたがってよく一般化されるが、下流のアプリケーションを妨げる不確実なスケールを持つ。
この目的のために,スケールの不確実性を解消し,相対深度をメートル法深度に伝達する枠組みを構築することを目的とする。
以前の手法では言語を入力として使用し、再スケーリングを行うための2つの要因を推定していた。
TR2Mはテキスト記述と画像の両方を入力として利用し、2つの再スケールマップを推定し、画素レベルで相対深度をメートル法深度に転送する。
2つのモダリティの特徴は、スケール情報をよりよく捉えるために、モダリティ横断アテンションモジュールで融合される。
戦略は、より包括的な監視のために、自信ある疑似計量深度を構築し、フィルタリングするように設計されている。
また,本研究では,奥行き分布を利用した尺度指向のコントラスト学習を開発し,本質的な知識に関するモデル学習を尺度分布と整合させる。
TR2Mは、さまざまな領域のデータセットでトレーニングするために、少数のトレーニング可能なパラメータのみを利用する。
我々は, 言語支援により, 相対深度をメートル法深度に変換する大きな可能性を示す。
(コードはhttps://github.com/BeileiCui/TR2M)。
関連論文リスト
- VGLD: Visually-Guided Linguistic Disambiguation for Monocular Depth Scale Recovery [2.8834278113855896]
VGLDは、記述とともに対応する画像から高レベルな意味情報を組み込むことで、テキスト情報の影響を安定化する。
このアプローチはテキストの曖昧さを解消し、線形変換パラメータ(スカラー)の集合を強く出力する。
以上の結果から,VGLDは複数のデータセットでトレーニングした場合に共通アライメントモジュールとして機能し,ゼロショットシナリオにおいても高い性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-05-05T14:57:16Z) - Metric-Solver: Sliding Anchored Metric Depth Estimation from a Single Image [51.689871870692194]
Metric-rはスライディングアンカーを用いた新しい距離深さ推定法である。
我々の設計は多様な環境にまたがって統一的かつ適応的な深度表現を可能にする。
論文 参考訳(メタデータ) (2025-04-16T14:12:25Z) - RSA: Resolving Scale Ambiguities in Monocular Depth Estimators through Language Descriptions [47.614203035800735]
一つの画像から深度を推定することは、視線投影によるスケールの損失による不適切な問題である。
我々の目標は、線形変換によりメートルスケールの深度マップを復元することである。
提案手法は,画像中のオブジェクトを記述したテキストキャプションを入力として,線形変換のパラメータを出力する。
論文 参考訳(メタデータ) (2024-10-03T19:18:13Z) - ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。