論文の概要: SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple
Cameras and Scenes by One Model
- arxiv url: http://arxiv.org/abs/2403.08556v1
- Date: Wed, 13 Mar 2024 14:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:11:05.943799
- Title: SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple
Cameras and Scenes by One Model
- Title(参考訳): SM4Depth:シームレス単分子距離推定
ワンモデルによるカメラとシーン
- Authors: Yihao Liu and Feng Xue and Anlong Ming
- Abstract要約: 本稿では, SM4Depthを提案する。SM4Depthは, 1つのネットワーク内の全ての問題にシームレスに対処するMMDE手法である。
まず、一貫した視野(FOV)が、カメラ間の距離あいまいさを解決する鍵であることを明らかにする。
第2に,シーン間で一貫した精度を達成するために,距離尺度の決定を,深さ間隔をビンに識別するものとして明示的にモデル化する。
第三に、大規模なトレーニングデータへの依存を減らすために、我々は「分割と征服」のソリューションを提案する。
- 参考スコア(独自算出の注目度): 23.95095404136943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generalization of monocular metric depth estimation (MMDE) has been a
longstanding challenge. Recent methods made progress by combining relative and
metric depth or aligning input image focal length. However, they are still
beset by challenges in camera, scene, and data levels: (1) Sensitivity to
different cameras; (2) Inconsistent accuracy across scenes; (3) Reliance on
massive training data. This paper proposes SM4Depth, a seamless MMDE method, to
address all the issues above within a single network. First, we reveal that a
consistent field of view (FOV) is the key to resolve ``metric ambiguity''
across cameras, which guides us to propose a more straightforward preprocessing
unit. Second, to achieve consistently high accuracy across scenes, we
explicitly model the metric scale determination as discretizing the depth
interval into bins and propose variation-based unnormalized depth bins. This
method bridges the depth gap of diverse scenes by reducing the ambiguity of the
conventional metric bin. Third, to reduce the reliance on massive training
data, we propose a ``divide and conquer" solution. Instead of estimating
directly from the vast solution space, the correct metric bins are estimated
from multiple solution sub-spaces for complexity reduction. Finally, with just
150K RGB-D pairs and a consumer-grade GPU for training, SM4Depth achieves
state-of-the-art performance on most previously unseen datasets, especially
surpassing ZoeDepth and Metric3D on mRI$_\theta$. The code can be found at
https://github.com/1hao-Liu/SM4Depth.
- Abstract(参考訳): 単分子距離深さ推定(MMDE)の一般化は長年にわたる課題である。
近年の手法では、相対深度とメートル法深度を組み合わせたり、入力画像焦点距離を調整したりして進行している。
しかし,カメラ,シーン,データレベルでの課題は,(1)異なるカメラに対する感度,(2)シーン間の不整合精度,(3)大規模なトレーニングデータへの信頼,等々である。
本稿では,1つのネットワーク内の全ての問題に対処する,シームレスなMMDE手法であるSM4Depthを提案する。
まず、一貫した視野(FOV)が、カメラ間の「測度あいまいさ」を解決する鍵であることを明らかにする。
第2に,シーン間で連続的に高い精度を達成するため,距離尺度の決定を,深さ間隔をビンに識別し,変分に基づく非正規化深度ビンを提案する。
この方法は従来の計量ビンのあいまいさを減らして多様なシーンの深さギャップを橋渡しする。
第三に、大規模なトレーニングデータへの依存を減らすために、我々は ‘divide and conquer’ ソリューションを提案する。
広大な解空間から直接推定する代わりに、正しい計量ビンは複雑性の減少のために複数の解部分空間から推定される。
最後に、たった150KのRGB-Dペアとトレーニング用のコンシューマグレードのGPUで、SM4Depthは、これまで見たことのないほとんどのデータセット、特にmRI$_\theta$のZoeDepthとMetric3Dを上回る最先端のパフォーマンスを実現している。
コードはhttps://github.com/1hao-Liu/SM4Depthで見ることができる。
関連論文リスト
- RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive
depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。
適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。
我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文 参考訳(メタデータ) (2023-08-17T14:52:11Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - CrossDTR: Cross-view and Depth-guided Transformers for 3D Object
Detection [10.696619570924778]
そこで我々は,3次元物体検出のためのクロスビューおよび奥行き誘導変換器を提案する。
歩行者検出では既存のマルチカメラ手法を10%上回り,mAPとNDSの指標では約3%を上回りました。
論文 参考訳(メタデータ) (2022-09-27T16:23:12Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Generalized Binary Search Network for Highly-Efficient Multi-View Stereo [10.367295443948487]
カメラパラメータが既知のマルチビューステレオ(MVS)は、基本的に有効な深度範囲内の1次元探索問題である。
近年の深層学習に基づくMVS法は, 一般に深度範囲の深部仮説を高密度にサンプリングする。
本稿では,メモリフットプリントを大幅に削減する高効率MVSを提案する。
論文 参考訳(メタデータ) (2021-12-04T13:57:18Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。