論文の概要: SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model
- arxiv url: http://arxiv.org/abs/2403.08556v2
- Date: Thu, 15 Aug 2024 03:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 18:41:00.756954
- Title: SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model
- Title(参考訳): SM4Depth:複数のカメラとシーンにまたがるシームレス単眼メートル深さの1モデルによる推定
- Authors: Yihao Liu, Feng Xue, Anlong Ming, Mingshuai Zhao, Huadong Ma, Nicu Sebe,
- Abstract要約: 現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。
これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。
本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
- 参考スコア(独自算出の注目度): 72.0795843450604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the last year, universal monocular metric depth estimation (universal MMDE) has gained considerable attention, serving as the foundation model for various multimedia tasks, such as video and image editing. Nonetheless, current approaches face challenges in maintaining consistent accuracy across diverse scenes without scene-specific parameters and pre-training, hindering the practicality of MMDE. Furthermore, these methods rely on extensive datasets comprising millions, if not tens of millions, of data for training, leading to significant time and hardware expenses. This paper presents SM$^4$Depth, a model that seamlessly works for both indoor and outdoor scenes, without needing extensive training data and GPU clusters. Firstly, to obtain consistent depth across diverse scenes, we propose a novel metric scale modeling, i.e., variation-based unnormalized depth bins. It reduces the ambiguity of the conventional metric bins and enables better adaptation to large depth gaps of scenes during training. Secondly, we propose a "divide and conquer" solution to reduce reliance on massive training data. Instead of estimating directly from the vast solution space, the metric bins are estimated from multiple solution sub-spaces to reduce complexity. Additionally, we introduce an uncut depth dataset, BUPT Depth, to evaluate the depth accuracy and consistency across various indoor and outdoor scenes. Trained on a consumer-grade GPU using just 150K RGB-D pairs, SM$^4$Depth achieves outstanding performance on the most never-before-seen datasets, especially maintaining consistent accuracy across indoors and outdoors. The code can be found https://github.com/mRobotit/SM4Depth.
- Abstract(参考訳): 昨年,ビデオや画像編集などのマルチメディアタスクの基盤モデルとして,ユニバーサルモノクル距離深度推定(ユニバーサルMMDE)が注目されている。
それにもかかわらず、現在のアプローチは、シーン固有のパラメータや事前学習を伴わず、様々なシーンで一貫した精度を維持することの難しさに直面し、MMDEの実践性を妨げている。
さらに、これらの手法は、何千万ではなくとも、何千万ものトレーニング用データからなる広範囲なデータセットに依存しており、かなりの時間とハードウェアの費用がかかる。
本稿では,室内と屋外の両方でシームレスに動作するSM$^4$Depthについて,大規模なトレーニングデータやGPUクラスタを必要としないモデルを提案する。
まず,多様な場面にまたがる一貫した深度を得るために,変分に基づく非正規化深度ビンという,新しい計量スケールモデリングを提案する。
従来のメートル法ビンの曖昧さを低減し、トレーニング中のシーンの大きな深さギャップへの適応性を向上する。
第二に、大規模なトレーニングデータへの依存を減らすために、「分割と征服」のソリューションを提案する。
広大な解空間から直接推定する代わりに、計量ビンは複雑さを減らすために複数の解部分空間から推定される。
さらに,室内および屋外の様々なシーンにおける深度精度と整合性を評価するために,未切断深度データセットであるBUPT深度を導入した。
SM$4$Depthは、わずか150KのRGB-Dペアを使用して、コンシューマグレードのGPUでトレーニングされている。
コードはhttps://github.com/mRobotit/SM4Depth.comで見ることができる。
関連論文リスト
- ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - UniDepth: Universal Monocular Metric Depth Estimation [81.80512457953903]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthを提案する。
我々のモデルは擬似球面出力表現を利用しており、カメラと奥行きの表現を歪めている。
ゼロショット方式における10のデータセットの詳細な評価は、一貫してUniDepthの優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-27T18:06:31Z) - Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model [34.85279074665031]
単眼深度推定法は標準ベンチマークで大きく進歩したが、ゼロショット距離深度推定は未解決のままである。
近年,屋内と屋外のシーンを共同でモデリングするためのマルチヘッドアーキテクチャが提案されている。
我々は、ログスケールの深さパラメータ化などのいくつかの進歩を伴って、汎用的なタスクに依存しない拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-12-20T18:27:47Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - RayMVSNet++: Learning Ray-based 1D Implicit Fields for Accurate
Multi-View Stereo [21.209964556493368]
RayMVSNetは、シーン深度を示すゼロクロスポイントを用いて、各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習する。
RayMVSNet++はScanNetデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-16T02:10:47Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data [110.29043712400912]
本稿では,アフィン変換に至るまでの多様なシーンにおける高品質な深度を予測できるモノクロ画像を用いた深度推定手法を提案する。
実験の結果,提案手法は,ゼロショットテスト設定と大差で8つのデータセットの先行手法より優れていた。
論文 参考訳(メタデータ) (2020-02-03T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。