論文の概要: RSA: Resolving Scale Ambiguities in Monocular Depth Estimators through Language Descriptions
- arxiv url: http://arxiv.org/abs/2410.02924v1
- Date: Thu, 3 Oct 2024 19:18:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 04:55:13.132747
- Title: RSA: Resolving Scale Ambiguities in Monocular Depth Estimators through Language Descriptions
- Title(参考訳): RSA:言語記述による単眼深度推定器のスケールの曖昧さの解消
- Authors: Ziyao Zeng, Yangchao Wu, Hyoungseob Park, Daniel Wang, Fengyu Yang, Stefano Soatto, Dong Lao, Byung-Woo Hong, Alex Wong,
- Abstract要約: 一つの画像から深度を推定することは、視線投影によるスケールの損失による不適切な問題である。
我々の目標は、線形変換によりメートルスケールの深度マップを復元することである。
提案手法は,画像中のオブジェクトを記述したテキストキャプションを入力として,線形変換のパラメータを出力する。
- 参考スコア(独自算出の注目度): 47.614203035800735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method for metric-scale monocular depth estimation. Inferring depth from a single image is an ill-posed problem due to the loss of scale from perspective projection during the image formation process. Any scale chosen is a bias, typically stemming from training on a dataset; hence, existing works have instead opted to use relative (normalized, inverse) depth. Our goal is to recover metric-scaled depth maps through a linear transformation. The crux of our method lies in the observation that certain objects (e.g., cars, trees, street signs) are typically found or associated with certain types of scenes (e.g., outdoor). We explore whether language descriptions can be used to transform relative depth predictions to those in metric scale. Our method, RSA, takes as input a text caption describing objects present in an image and outputs the parameters of a linear transformation which can be applied globally to a relative depth map to yield metric-scaled depth predictions. We demonstrate our method on recent general-purpose monocular depth models on indoors (NYUv2) and outdoors (KITTI). When trained on multiple datasets, RSA can serve as a general alignment module in zero-shot settings. Our method improves over common practices in aligning relative to metric depth and results in predictions that are comparable to an upper bound of fitting relative depth to ground truth via a linear transformation.
- Abstract(参考訳): 本稿では,メートルスケール単分子深度推定法を提案する。
単一の画像から深度を推定することは、画像形成過程における視点投影からのスケールの損失による不適切な問題である。
選択されたスケールは偏りであり、通常はデータセットのトレーニングに由来する。
我々の目標は、線形変換によりメートルスケールの深度マップを復元することである。
我々の手法の要点は、ある物体(例えば、車、木、街路標識)が通常、ある種類のシーン(例えば、屋外)に関連付けられているという観察にある。
本稿では,言語記述を用いて,相対的な深度予測を計量スケールに変換できるかどうかを考察する。
提案手法は,画像中のオブジェクトを記述したテキストキャプションを入力として,相対深度マップにグローバルに適用可能な線形変換のパラメータを出力し,メトリックスケールの深度予測を行う。
室内(NYUv2)および屋外(KITTI)における最近の汎用単分子深度モデルについて示す。
複数のデータセットでトレーニングすると、RSAはゼロショット設定で一般的なアライメントモジュールとして機能する。
提案手法は, 距離深度と相対的な相関関係の一般的な手法を改良し, 線形変換により, 地上の真理に対する適合深さの上限に匹敵する予測を行う。
関連論文リスト
- ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - Metric3Dv2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation [74.28509379811084]
Metric3D v2は、ゼロショット距離深さと1枚の画像からの表面正規推定のための幾何学的基礎モデルである。
距離深度推定と表面正規度推定の両方の解を提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2024-03-22T02:30:46Z) - Metrically Scaled Monocular Depth Estimation through Sparse Priors for
Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。
このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。
この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-25T16:32:31Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data [110.29043712400912]
本稿では,アフィン変換に至るまでの多様なシーンにおける高品質な深度を予測できるモノクロ画像を用いた深度推定手法を提案する。
実験の結果,提案手法は,ゼロショットテスト設定と大差で8つのデータセットの先行手法より優れていた。
論文 参考訳(メタデータ) (2020-02-03T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。