論文の概要: Towards Zero-Shot Scale-Aware Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2306.17253v1
- Date: Thu, 29 Jun 2023 18:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 14:11:02.988225
- Title: Towards Zero-Shot Scale-Aware Monocular Depth Estimation
- Title(参考訳): ゼロショットスケールアウェア単眼深度推定に向けて
- Authors: Vitor Guizilini, Igor Vasiljevic, Dian Chen, Rares Ambrus, Adrien
Gaidon
- Abstract要約: 任意のテスト画像の計量スケールを予測できる新しい単眼深度推定フレームワークであるZeroDepthを紹介する。
これは、(i)入力レベルの幾何学的埋め込みを使用して、オブジェクトの前のスケールを学習し、(ii)エンコーダとデコーダのステージをデカップリングすることで実現される。
- 参考スコア(独自算出の注目度): 28.42580603643096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation is scale-ambiguous, and thus requires scale
supervision to produce metric predictions. Even so, the resulting models will
be geometry-specific, with learned scales that cannot be directly transferred
across domains. Because of that, recent works focus instead on relative depth,
eschewing scale in favor of improved up-to-scale zero-shot transfer. In this
work we introduce ZeroDepth, a novel monocular depth estimation framework
capable of predicting metric scale for arbitrary test images from different
domains and camera parameters. This is achieved by (i) the use of input-level
geometric embeddings that enable the network to learn a scale prior over
objects; and (ii) decoupling the encoder and decoder stages, via a variational
latent representation that is conditioned on single frame information. We
evaluated ZeroDepth targeting both outdoor (KITTI, DDAD, nuScenes) and indoor
(NYUv2) benchmarks, and achieved a new state-of-the-art in both settings using
the same pre-trained model, outperforming methods that train on in-domain data
and require test-time scaling to produce metric estimates.
- Abstract(参考訳): 単分子深度推定はスケールあいまいであり、計量予測を生成するにはスケールの監督が必要である。
それでも、得られたモデルは幾何学的特化され、学習スケールはドメイン間で直接転送できない。
このため、最近の作品は相対的な深さに焦点を合わせ、スケールを回避し、アップ・ツー・スケールのゼロショット転送を改善した。
本稿では,異なる領域とカメラパラメータから任意のテスト画像のメートル法スケールを予測可能な,新しい単眼深度推定フレームワークであるzerodepthを紹介する。
これが達成される
(i)ネットワークがオブジェクトよりも先にスケールを学習できるようにする入力レベルの幾何学的埋め込みの使用。
2) エンコーダとデコーダのステージを、単一のフレーム情報に条件付けされた変分潜在表現を介して切り離す。
我々は,アウトドア(kitti,ddad,nuscenes)と屋内(nyuv2)のベンチマークを対象とするゼロディテールを評価し,同じ事前学習モデルを用いて両方の設定において,ドメイン内データをトレーニングし,メトリック推定を生成するためにテスト時間スケーリングを必要とする手法を上回って,新たな最先端の手法を実現した。
関連論文リスト
- GRIN: Zero-Shot Metric Depth with Pixel-Level Diffusion [27.35300492569507]
本稿では,非構造化トレーニングデータを取り込むための効率的な拡散モデルGRINを提案する。
GRINは,ゼロショット距離単眼深度推定において,スクラッチからトレーニングした場合でも,新たな技術の確立を図っている。
論文 参考訳(メタデータ) (2024-09-15T23:32:04Z) - TanDepth: Leveraging Global DEMs for Metric Monocular Depth Estimation in UAVs [5.6168844664788855]
本研究は,推定時間における相対的推定値から計量深度値を求めるための,実践的なオンラインスケール回復手法であるTanDepthを提案する。
本手法は無人航空機(UAV)の用途に応用され,GDEM(Global Digital Elevation Models)のスパース計測をカメラビューに投影することで活用する。
推定深度マップから接地点を選択して、投影された基準点と相関するクラスシミュレーションフィルタへの適応を示す。
論文 参考訳(メタデータ) (2024-09-08T15:54:43Z) - ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - Metric3Dv2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation [74.28509379811084]
Metric3D v2は、ゼロショット距離深さと1枚の画像からの表面正規推定のための幾何学的基礎モデルである。
距離深度推定と表面正規度推定の両方の解を提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2024-03-22T02:30:46Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Metrically Scaled Monocular Depth Estimation through Sparse Priors for
Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。
このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。
この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-25T16:32:31Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - MonoIndoor++:Towards Better Practice of Self-Supervised Monocular Depth
Estimation for Indoor Environments [45.89629401768049]
自己監督型単分子深度推定は近年,特に屋外環境において顕著な進歩を遂げている。
しかし、既存のデータの大半を携帯端末で捉えている屋内シーンでは、深度予測結果は満足できない。
室内環境における自己教師型単眼深度推定の性能向上を目的とした,新しいフレームワーク-IndoorMono++を提案する。
論文 参考訳(メタデータ) (2022-07-18T21:34:43Z) - Category-Level Metric Scale Object Shape and Pose Estimation [73.92460712829188]
本稿では,測度スケールの形状と1枚のRGB画像からのポーズを共同で推定するフレームワークを提案する。
カテゴリーレベルのオブジェクトのポーズと形状を評価するために,合成と実世界の両方のデータセット上で本手法の有効性を検証した。
論文 参考訳(メタデータ) (2021-09-01T12:16:46Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。