論文の概要: Towards Zero-Shot Scale-Aware Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2306.17253v1
- Date: Thu, 29 Jun 2023 18:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 14:11:02.988225
- Title: Towards Zero-Shot Scale-Aware Monocular Depth Estimation
- Title(参考訳): ゼロショットスケールアウェア単眼深度推定に向けて
- Authors: Vitor Guizilini, Igor Vasiljevic, Dian Chen, Rares Ambrus, Adrien
Gaidon
- Abstract要約: 任意のテスト画像の計量スケールを予測できる新しい単眼深度推定フレームワークであるZeroDepthを紹介する。
これは、(i)入力レベルの幾何学的埋め込みを使用して、オブジェクトの前のスケールを学習し、(ii)エンコーダとデコーダのステージをデカップリングすることで実現される。
- 参考スコア(独自算出の注目度): 28.42580603643096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation is scale-ambiguous, and thus requires scale
supervision to produce metric predictions. Even so, the resulting models will
be geometry-specific, with learned scales that cannot be directly transferred
across domains. Because of that, recent works focus instead on relative depth,
eschewing scale in favor of improved up-to-scale zero-shot transfer. In this
work we introduce ZeroDepth, a novel monocular depth estimation framework
capable of predicting metric scale for arbitrary test images from different
domains and camera parameters. This is achieved by (i) the use of input-level
geometric embeddings that enable the network to learn a scale prior over
objects; and (ii) decoupling the encoder and decoder stages, via a variational
latent representation that is conditioned on single frame information. We
evaluated ZeroDepth targeting both outdoor (KITTI, DDAD, nuScenes) and indoor
(NYUv2) benchmarks, and achieved a new state-of-the-art in both settings using
the same pre-trained model, outperforming methods that train on in-domain data
and require test-time scaling to produce metric estimates.
- Abstract(参考訳): 単分子深度推定はスケールあいまいであり、計量予測を生成するにはスケールの監督が必要である。
それでも、得られたモデルは幾何学的特化され、学習スケールはドメイン間で直接転送できない。
このため、最近の作品は相対的な深さに焦点を合わせ、スケールを回避し、アップ・ツー・スケールのゼロショット転送を改善した。
本稿では,異なる領域とカメラパラメータから任意のテスト画像のメートル法スケールを予測可能な,新しい単眼深度推定フレームワークであるzerodepthを紹介する。
これが達成される
(i)ネットワークがオブジェクトよりも先にスケールを学習できるようにする入力レベルの幾何学的埋め込みの使用。
2) エンコーダとデコーダのステージを、単一のフレーム情報に条件付けされた変分潜在表現を介して切り離す。
我々は,アウトドア(kitti,ddad,nuscenes)と屋内(nyuv2)のベンチマークを対象とするゼロディテールを評価し,同じ事前学習モデルを用いて両方の設定において,ドメイン内データをトレーニングし,メトリック推定を生成するためにテスト時間スケーリングを必要とする手法を上回って,新たな最先端の手法を実現した。
関連論文リスト
- FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [60.9306410617744]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Metrically Scaled Monocular Depth Estimation through Sparse Priors for
Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。
このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。
この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-25T16:32:31Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - One scalar is all you need -- absolute depth estimation using monocular
self-supervision [59.45414406974091]
自己教師付き単眼深度推定器は、画像のみを使用し、地中深度データがない新しいシーンで訓練または微調整することができる。
これらの推定器は、深度スケールの固有の曖昧さに悩まされ、適用性が著しく制限される。
本稿では,地中深度で収集した既存のソースデータセットから,自己監督を用いて訓練した深度推定器へ深度スケールを転送する手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T07:07:34Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - MonoIndoor++:Towards Better Practice of Self-Supervised Monocular Depth
Estimation for Indoor Environments [45.89629401768049]
自己監督型単分子深度推定は近年,特に屋外環境において顕著な進歩を遂げている。
しかし、既存のデータの大半を携帯端末で捉えている屋内シーンでは、深度予測結果は満足できない。
室内環境における自己教師型単眼深度推定の性能向上を目的とした,新しいフレームワーク-IndoorMono++を提案する。
論文 参考訳(メタデータ) (2022-07-18T21:34:43Z) - Visual Attention-based Self-supervised Absolute Depth Estimation using
Geometric Priors in Autonomous Driving [8.045833295463094]
空間的注意とチャネルの注意をすべてのステージに適用する,完全に視覚的注意に基づく奥行き(VADepth)ネットワークを導入する。
VADepthネットワークは、空間的およびチャネル的次元に沿った特徴の依存関係を長距離にわたって連続的に抽出することにより、重要な詳細を効果的に保存することができる。
KITTIデータセットの実験結果は、このアーキテクチャが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2022-05-18T08:01:38Z) - Category-Level Metric Scale Object Shape and Pose Estimation [73.92460712829188]
本稿では,測度スケールの形状と1枚のRGB画像からのポーズを共同で推定するフレームワークを提案する。
カテゴリーレベルのオブジェクトのポーズと形状を評価するために,合成と実世界の両方のデータセット上で本手法の有効性を検証した。
論文 参考訳(メタデータ) (2021-09-01T12:16:46Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。