論文の概要: SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple
Cameras and Scenes by One Model
- arxiv url: http://arxiv.org/abs/2403.08556v1
- Date: Wed, 13 Mar 2024 14:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:11:05.943799
- Title: SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple
Cameras and Scenes by One Model
- Title(参考訳): SM4Depth:シームレス単分子距離推定
ワンモデルによるカメラとシーン
- Authors: Yihao Liu and Feng Xue and Anlong Ming
- Abstract要約: 本稿では, SM4Depthを提案する。SM4Depthは, 1つのネットワーク内の全ての問題にシームレスに対処するMMDE手法である。
まず、一貫した視野(FOV)が、カメラ間の距離あいまいさを解決する鍵であることを明らかにする。
第2に,シーン間で一貫した精度を達成するために,距離尺度の決定を,深さ間隔をビンに識別するものとして明示的にモデル化する。
第三に、大規模なトレーニングデータへの依存を減らすために、我々は「分割と征服」のソリューションを提案する。
- 参考スコア(独自算出の注目度): 23.95095404136943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generalization of monocular metric depth estimation (MMDE) has been a
longstanding challenge. Recent methods made progress by combining relative and
metric depth or aligning input image focal length. However, they are still
beset by challenges in camera, scene, and data levels: (1) Sensitivity to
different cameras; (2) Inconsistent accuracy across scenes; (3) Reliance on
massive training data. This paper proposes SM4Depth, a seamless MMDE method, to
address all the issues above within a single network. First, we reveal that a
consistent field of view (FOV) is the key to resolve ``metric ambiguity''
across cameras, which guides us to propose a more straightforward preprocessing
unit. Second, to achieve consistently high accuracy across scenes, we
explicitly model the metric scale determination as discretizing the depth
interval into bins and propose variation-based unnormalized depth bins. This
method bridges the depth gap of diverse scenes by reducing the ambiguity of the
conventional metric bin. Third, to reduce the reliance on massive training
data, we propose a ``divide and conquer" solution. Instead of estimating
directly from the vast solution space, the correct metric bins are estimated
from multiple solution sub-spaces for complexity reduction. Finally, with just
150K RGB-D pairs and a consumer-grade GPU for training, SM4Depth achieves
state-of-the-art performance on most previously unseen datasets, especially
surpassing ZoeDepth and Metric3D on mRI$_\theta$. The code can be found at
https://github.com/1hao-Liu/SM4Depth.
- Abstract(参考訳): 単分子距離深さ推定(MMDE)の一般化は長年にわたる課題である。
近年の手法では、相対深度とメートル法深度を組み合わせたり、入力画像焦点距離を調整したりして進行している。
しかし,カメラ,シーン,データレベルでの課題は,(1)異なるカメラに対する感度,(2)シーン間の不整合精度,(3)大規模なトレーニングデータへの信頼,等々である。
本稿では,1つのネットワーク内の全ての問題に対処する,シームレスなMMDE手法であるSM4Depthを提案する。
まず、一貫した視野(FOV)が、カメラ間の「測度あいまいさ」を解決する鍵であることを明らかにする。
第2に,シーン間で連続的に高い精度を達成するため,距離尺度の決定を,深さ間隔をビンに識別し,変分に基づく非正規化深度ビンを提案する。
この方法は従来の計量ビンのあいまいさを減らして多様なシーンの深さギャップを橋渡しする。
第三に、大規模なトレーニングデータへの依存を減らすために、我々は ‘divide and conquer’ ソリューションを提案する。
広大な解空間から直接推定する代わりに、正しい計量ビンは複雑性の減少のために複数の解部分空間から推定される。
最後に、たった150KのRGB-Dペアとトレーニング用のコンシューマグレードのGPUで、SM4Depthは、これまで見たことのないほとんどのデータセット、特にmRI$_\theta$のZoeDepthとMetric3Dを上回る最先端のパフォーマンスを実現している。
コードはhttps://github.com/1hao-Liu/SM4Depthで見ることができる。
関連論文リスト
- ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - UniDepth: Universal Monocular Metric Depth Estimation [81.80512457953903]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthを提案する。
我々のモデルは擬似球面出力表現を利用しており、カメラと奥行きの表現を歪めている。
ゼロショット方式における10のデータセットの詳細な評価は、一貫してUniDepthの優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-27T18:06:31Z) - Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model [34.85279074665031]
単眼深度推定法は標準ベンチマークで大きく進歩したが、ゼロショット距離深度推定は未解決のままである。
近年,屋内と屋外のシーンを共同でモデリングするためのマルチヘッドアーキテクチャが提案されている。
我々は、ログスケールの深さパラメータ化などのいくつかの進歩を伴って、汎用的なタスクに依存しない拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-12-20T18:27:47Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - RayMVSNet++: Learning Ray-based 1D Implicit Fields for Accurate
Multi-View Stereo [21.209964556493368]
RayMVSNetは、シーン深度を示すゼロクロスポイントを用いて、各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習する。
RayMVSNet++はScanNetデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-16T02:10:47Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data [110.29043712400912]
本稿では,アフィン変換に至るまでの多様なシーンにおける高品質な深度を予測できるモノクロ画像を用いた深度推定手法を提案する。
実験の結果,提案手法は,ゼロショットテスト設定と大差で8つのデータセットの先行手法より優れていた。
論文 参考訳(メタデータ) (2020-02-03T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。