論文の概要: Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image
- arxiv url: http://arxiv.org/abs/2307.10984v1
- Date: Thu, 20 Jul 2023 16:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 12:07:47.460834
- Title: Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image
- Title(参考訳): metric3d: 1つの画像からゼロショットメトリック3d予測へ
- Authors: Wei Yin, Chi Zhang, Hao Chen, Zhipeng Cai, Gang Yu, Kaixuan Wang,
Xiaozhi Chen, Chunhua Shen
- Abstract要約: ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
- 参考スコア(独自算出の注目度): 85.91935485902708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing accurate 3D scenes from images is a long-standing vision task.
Due to the ill-posedness of the single-image reconstruction problem, most
well-established methods are built upon multi-view geometry. State-of-the-art
(SOTA) monocular metric depth estimation methods can only handle a single
camera model and are unable to perform mixed-data training due to the metric
ambiguity. Meanwhile, SOTA monocular methods trained on large mixed datasets
achieve zero-shot generalization by learning affine-invariant depths, which
cannot recover real-world metrics. In this work, we show that the key to a
zero-shot single-view metric depth model lies in the combination of large-scale
data training and resolving the metric ambiguity from various camera models. We
propose a canonical camera space transformation module, which explicitly
addresses the ambiguity problems and can be effortlessly plugged into existing
monocular models. Equipped with our module, monocular models can be stably
trained with over 8 million images with thousands of camera models, resulting
in zero-shot generalization to in-the-wild images with unseen camera settings.
Experiments demonstrate SOTA performance of our method on 7 zero-shot
benchmarks. Notably, our method won the championship in the 2nd Monocular Depth
Estimation Challenge. Our method enables the accurate recovery of metric 3D
structures on randomly collected internet images, paving the way for plausible
single-image metrology. The potential benefits extend to downstream tasks,
which can be significantly improved by simply plugging in our model. For
example, our model relieves the scale drift issues of monocular-SLAM (Fig. 1),
leading to high-quality metric scale dense mapping. The code is available at
https://github.com/YvanYin/Metric3D.
- Abstract(参考訳): 画像から正確な3dシーンを再構築することは、長年のビジョン課題だ。
単一像再構成問題の不備により、最もよく確立された手法は多視点幾何学に基づいている。
state-of-the-art (sota) 単眼距離推定法は単一のカメラモデルしか処理できず、距離曖昧性のため混合データトレーニングを行うことができない。
一方、大きな混合データセットで訓練されたsoma単眼法は、実世界のメトリクスを復元できないアフィン不変深さを学習することでゼロショット一般化を達成する。
本研究では,ゼロショット単眼距離モデルにおける鍵は,大規模データトレーニングと様々なカメラモデルによる距離曖昧性解消の組み合わせにあることを示す。
そこで本稿では,曖昧性問題に明示的に対処し,既存の単眼モデルに無益に接続可能な標準カメラ空間変換モジュールを提案する。
当社のモジュールを搭載した単眼モデルは、数千台のカメラモデルを備えた800万以上のイメージで安定してトレーニングすることが可能です。
7つのゼロショットベンチマークでSOTA性能を示す実験を行った。
特に,本手法は,第2回単眼深度推定チャレンジで優勝した。
提案手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
潜在的な利点は下流のタスクにまで拡張され、モデルにプラグインするだけで大幅に改善できます。
例えば,本モデルではモノクロSLAMのスケールドリフト問題(第1図)を緩和し,高品質な計量スケール高密度マッピングを実現する。
コードはhttps://github.com/YvanYin/Metric3Dで入手できる。
関連論文リスト
- SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple
Cameras and Scenes by One Model [23.95095404136943]
本稿では, SM4Depthを提案する。SM4Depthは, 1つのネットワーク内の全ての問題にシームレスに対処するMMDE手法である。
まず、一貫した視野(FOV)が、カメラ間の距離あいまいさを解決する鍵であることを明らかにする。
第2に,シーン間で一貫した精度を達成するために,距離尺度の決定を,深さ間隔をビンに識別するものとして明示的にモデル化する。
第三に、大規模なトレーニングデータへの依存を減らすために、我々は「分割と征服」のソリューションを提案する。
論文 参考訳(メタデータ) (2024-03-13T14:08:25Z) - DUSt3R: Geometric 3D Vision Made Easy [9.088432378237606]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - MGNet: Monocular Geometric Scene Understanding for Autonomous Driving [10.438741209852209]
MGNetはモノクロ幾何学的シーン理解のためのマルチタスクフレームワークである。
我々は、単眼の幾何学的シーン理解を、パノプティカルセグメンテーションと自己教師付き単眼深度推定という2つの既知のタスクの組み合わせとして定義する。
我々のモデルは、単一のコンシューマグレードのGPU上で、リアルタイムに高速な推論を提供するために、低レイテンシにフォーカスして設計されている。
論文 参考訳(メタデータ) (2022-06-27T11:27:55Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Towards General Purpose Geometry-Preserving Single-View Depth Estimation [1.9573380763700712]
単視点深度推定(SVDE)は、ARアプリケーション、3Dモデリング、ロボット工学におけるシーン理解において重要な役割を果たす。
近年の研究では、成功するソリューションはトレーニングデータの多様性とボリュームに強く依存していることが示されている。
我々の研究は、従来のデータセットとともに、このデータに基づいてトレーニングされたモデルが、正確なシーン形状を予測しながら精度を向上できることを示している。
論文 参考訳(メタデータ) (2020-09-25T20:06:13Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。