論文の概要: Depth Anything V2
- arxiv url: http://arxiv.org/abs/2406.09414v2
- Date: Sun, 20 Oct 2024 11:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:17.588740
- Title: Depth Anything V2
- Title(参考訳): 深さV2
- Authors: Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao,
- Abstract要約: V2は3つの重要なプラクティスを通じて、より微細でより堅牢な深度予測を生成する。
すべてのラベル付き実像を合成画像に置き換え、教師モデルの容量を拡大し、大規模な擬似ラベル付き実像のブリッジを通じて生徒モデルを教える。
その強い一般化能力から、距離深度モデルを得るために、距離深度ラベルを微調整する。
- 参考スコア(独自算出の注目度): 84.88796880335283
- License:
- Abstract: This work presents Depth Anything V2. Without pursuing fancy techniques, we aim to reveal crucial findings to pave the way towards building a powerful monocular depth estimation model. Notably, compared with V1, this version produces much finer and more robust depth predictions through three key practices: 1) replacing all labeled real images with synthetic images, 2) scaling up the capacity of our teacher model, and 3) teaching student models via the bridge of large-scale pseudo-labeled real images. Compared with the latest models built on Stable Diffusion, our models are significantly more efficient (more than 10x faster) and more accurate. We offer models of different scales (ranging from 25M to 1.3B params) to support extensive scenarios. Benefiting from their strong generalization capability, we fine-tune them with metric depth labels to obtain our metric depth models. In addition to our models, considering the limited diversity and frequent noise in current test sets, we construct a versatile evaluation benchmark with precise annotations and diverse scenes to facilitate future research.
- Abstract(参考訳): この研究は、Depth Anything V2を提示する。
先進的な手法を追求することなく、強力な単分子深度推定モデルを構築するための重要な発見を明らかにすることを目的としている。
特に、V1と比較すると、このバージョンは3つの重要なプラクティスを通じて、はるかに微細でより堅牢な深度予測を生成する。
1)全てのラベル付き実像を合成画像に置き換える。
2)教師モデルの容量を拡大し、
3)大規模擬似ラベル実画像の橋渡しによる学生モデル指導
Stable Diffusionで作られた最新のモデルと比較して、われわれのモデルははるかに効率が良く(10倍速い)、正確だ。
幅広いシナリオをサポートするため、さまざまなスケール(25Mから1.3Bのパラム)のモデルを提供しています。
その強い一般化能力から、距離深度モデルを得るために、距離深度ラベルを微調整する。
我々のモデルに加えて、現在のテストセットにおける限られた多様性と頻繁なノイズを考慮して、正確なアノテーションと多様なシーンを用いた多目的評価ベンチマークを構築し、将来の研究を容易にする。
関連論文リスト
- Depth Pro: Sharp Monocular Metric Depth in Less Than a Second [45.6690958201871]
ゼロショット距離単眼深度推定のための基礎モデルを提案する。
我々のモデルであるDepth Proは、非並列のシャープネスと高周波の詳細で高分解能深度マップを合成する。
標準GPUで0.3秒で2.25メガピクセルの深度マップを生成する。
論文 参考訳(メタデータ) (2024-10-02T22:42:20Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - EdgeConv with Attention Module for Monocular Depth Estimation [4.239147046986999]
正確な深度マップを生成するためには,モデルがシーンの構造情報を学習することが重要である。
単眼深度推定の難しさを解決するために,Patch-Wise EdgeConv Module (PEM) と EdgeConv Attention Module (EAM) を提案する。
提案手法は,NYU Depth V2 と KITTI スプリットの2つの一般的なデータセットを用いて評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-06-16T08:15:20Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。