論文の概要: ZoeDepth: Zero-shot Transfer by Combining Relative and Metric Depth
- arxiv url: http://arxiv.org/abs/2302.12288v1
- Date: Thu, 23 Feb 2023 19:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 15:37:45.765988
- Title: ZoeDepth: Zero-shot Transfer by Combining Relative and Metric Depth
- Title(参考訳): ZoeDepth:相対深さとメートル深さを組み合わせたゼロショット転送
- Authors: Shariq Farooq Bhat, Reiner Birkl, Diana Wofk, Peter Wonka, Matthias
M\"uller
- Abstract要約: ZoeD-M12-NKは、相対深度を用いて12のデータセットで事前トレーニングされ、メートル法深度を使用して2つのデータセットで微調整される。
屋内ドメインと屋外ドメインの両方で、目に見えない8つのデータセットに対して、前例のないゼロショット一般化性能を実現した。
- 参考スコア(独自算出の注目度): 36.06906959987852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles the problem of depth estimation from a single image.
Existing work either focuses on generalization performance disregarding metric
scale, i.e. relative depth estimation, or state-of-the-art results on specific
datasets, i.e. metric depth estimation. We propose the first approach that
combines both worlds, leading to a model with excellent generalization
performance while maintaining metric scale. Our flagship model, ZoeD-M12-NK, is
pre-trained on 12 datasets using relative depth and fine-tuned on two datasets
using metric depth. We use a lightweight head with a novel bin adjustment
design called metric bins module for each domain. During inference, each input
image is automatically routed to the appropriate head using a latent
classifier. Our framework admits multiple configurations depending on the
datasets used for relative depth pre-training and metric fine-tuning. Without
pre-training, we can already significantly improve the state of the art (SOTA)
on the NYU Depth v2 indoor dataset. Pre-training on twelve datasets and
fine-tuning on the NYU Depth v2 indoor dataset, we can further improve SOTA for
a total of 21% in terms of relative absolute error (REL). Finally, ZoeD-M12-NK
is the first model that can jointly train on multiple datasets (NYU Depth v2
and KITTI) without a significant drop in performance and achieve unprecedented
zero-shot generalization performance to eight unseen datasets from both indoor
and outdoor domains. The code and pre-trained models are publicly available at
https://github.com/isl-org/ZoeDepth .
- Abstract(参考訳): 本稿では,単一画像からの深度推定の問題に取り組む。
既存の研究は、メートル法スケール、すなわち相対深度推定や特定のデータセットの最先端結果、すなわちメートル法深度推定を無視する一般化性能に焦点を当てている。
我々は,両世界を組み合わせた最初のアプローチを提案し,メートル法スケールを維持しつつ,優れた一般化性能を持つモデルを実現する。
我々のフラッグシップモデルであるZoeD-M12-NKは、相対深度を用いて12のデータセットで事前トレーニングされ、計量深度を使用して2つのデータセットで微調整されます。
我々は、各ドメインにメートル法ビンモジュールと呼ばれる新しいビン調整設計の軽量ヘッドを使用する。
推論中、各入力画像は潜在分類器を使用して適切な頭部に自動的にルーティングされる。
我々のフレームワークは、相対深度事前学習とメートル法微調整に使用されるデータセットに依存する複数の設定を許容する。
事前トレーニングなしでは、NYU Depth v2屋内データセットのSOTA(State of the Art)を大幅に改善することができます。
12のデータセットを事前トレーニングし、NYU Depth v2屋内データセットを微調整することで、相対絶対誤差(REL)の合計で21%のSOTAをさらに改善できる。
最後に、ZoeD-M12-NKは、複数のデータセット(NYU Depth v2とKITTI)を大きなパフォーマンス低下なしに共同でトレーニングし、屋内および屋外のドメインから8つの目に見えないデータセットに対して前例のないゼロショットの一般化性能を達成する最初のモデルである。
コードと事前トレーニングされたモデルはhttps://github.com/isl-org/zoedepthで公開されている。
関連論文リスト
- Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model [72.0795843450604]
現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。
これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。
本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
論文 参考訳(メタデータ) (2024-03-13T14:08:25Z) - Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [87.61900472933523]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。
データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。
6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文 参考訳(メタデータ) (2024-01-19T18:59:52Z) - Metrically Scaled Monocular Depth Estimation through Sparse Priors for
Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。
このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。
この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-25T16:32:31Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - Towards Zero-Shot Scale-Aware Monocular Depth Estimation [28.42580603643096]
任意のテスト画像の計量スケールを予測できる新しい単眼深度推定フレームワークであるZeroDepthを紹介する。
これは、(i)入力レベルの幾何学的埋め込みを使用して、オブジェクトの前のスケールを学習し、(ii)エンコーダとデコーダのステージをデカップリングすることで実現される。
論文 参考訳(メタデータ) (2023-06-29T18:46:11Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - Monocular Depth Distribution Alignment with Low Computation [15.05244258071472]
我々は、軽量ネットワークと重軽量ネットワークの精度コントラストの大部分をモデル化する。
DANetは2つの領域ごとに深度の特徴の違いを知覚することにより、合理的なシーン構造を予測する傾向にある。
DANetは、深さ分布形状とシーン深度範囲のアライメントにより、分布のドリフトを著しく軽減し、従来の重み付け手法と同等の性能を達成する。
論文 参考訳(メタデータ) (2022-03-09T06:18:26Z) - Does it work outside this benchmark? Introducing the Rigid Depth
Constructor tool, depth validation dataset construction in rigid scenes for
the masses [1.294486861344922]
ナビゲーションのための独自の深度検証データセットを構築するためのプロトコルを紹介します。
Rigid Depth ConstructorのRCCは、既存の技術よりもアクセスしやすく、安価になることを目指している。
また,評価アルゴリズムから洞察力のある情報を得るためのテストスイートも開発した。
論文 参考訳(メタデータ) (2021-03-29T22:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。