論文の概要: MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation
- arxiv url: http://arxiv.org/abs/2307.14460v1
- Date: Wed, 26 Jul 2023 19:01:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 16:50:41.482187
- Title: MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation
- Title(参考訳): MiDaS v3.1 -- ロバストな単分子相対深さ推定のためのモデル動物園
- Authors: Reiner Birkl, Diana Wofk, Matthias M\"uller
- Abstract要約: モノクロ深度推定のためのMiDaS v3.1をリリースし、異なるエンコーダのバックボーンに基づく様々な新しいモデルを提供する。
画像エンコーダとして最も有望なビジョントランスフォーマーが,MiDaSアーキテクチャの深度推定品質とランタイムに与える影響について検討する。
- 参考スコア(独自算出の注目度): 4.563488428831042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We release MiDaS v3.1 for monocular depth estimation, offering a variety of
new models based on different encoder backbones. This release is motivated by
the success of transformers in computer vision, with a large variety of
pretrained vision transformers now available. We explore how using the most
promising vision transformers as image encoders impacts depth estimation
quality and runtime of the MiDaS architecture. Our investigation also includes
recent convolutional approaches that achieve comparable quality to vision
transformers in image classification tasks. While the previous release MiDaS
v3.0 solely leverages the vanilla vision transformer ViT, MiDaS v3.1 offers
additional models based on BEiT, Swin, SwinV2, Next-ViT and LeViT. These models
offer different performance-runtime tradeoffs. The best model improves the
depth estimation quality by 28% while efficient models enable downstream tasks
requiring high frame rates. We also describe the general process for
integrating new backbones. A video summarizing the work can be found at
https://youtu.be/UjaeNNFf9sE and the code is available at
https://github.com/isl-org/MiDaS.
- Abstract(参考訳): モノクロ深度推定のためのMiDaS v3.1をリリースし、異なるエンコーダのバックボーンに基づく様々な新しいモデルを提供する。
このリリースはコンピュータビジョンにおけるトランスフォーマーの成功によるものであり、様々な事前訓練されたビジョントランスフォーマーが利用可能になっている。
画像エンコーダとして最も有望なビジョントランスフォーマーが,MiDaSアーキテクチャの深度推定品質とランタイムに与える影響について検討する。
画像分類タスクにおいて視覚トランスフォーマーに匹敵する品質を実現する最近の畳み込み手法についても検討した。
MiDaS v3.0はバニラ・ビジョン・トランスフォーマーのViTのみを利用しているが、MiDaS v3.1はBEiT、Swin、SwinV2、Next-ViT、LeViTをベースとした追加モデルを提供している。
これらのモデルはパフォーマンスとランタイムのトレードオフが異なる。
最良のモデルは深さ推定品質を28%改善し、効率的なモデルはフレームレートの高い下流タスクを可能にする。
新しいバックボーンを統合する一般的なプロセスについても説明します。
作業の要約はhttps://youtu.be/UjaeNNFf9sEで、コードはhttps://github.com/isl-org/MiDaSで公開されている。
関連論文リスト
- MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。
我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。
スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文 参考訳(メタデータ) (2024-11-25T07:34:23Z) - Scaling Vision Transformers to 22 Billion Parameters [140.67853929168382]
Vision Transformers (ViT) は画像とビデオのモデリングに同じアーキテクチャを導入したが、まだほぼ同じ程度に拡張されていない。
本稿では,22Bパラメータ ViT (ViT-22B) の高効率かつ安定なトレーニング法を提案する。
ViT-22Bは、視界における"LLMライクな"スケーリングの可能性を示し、そこに到達するための重要なステップを提供する。
論文 参考訳(メタデータ) (2023-02-10T18:58:21Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - AdaptFormer: Adapting Vision Transformers for Scalable Visual
Recognition [39.443380221227166]
本稿では,Transformerの効果的な適応手法,すなわちAdaptFormerを提案する。
トレーニング済みのViTを、さまざまな画像やビデオタスクに効率的に適応させることができる。
オリジナルのトレーニング済みパラメータを更新することなく、ViTの転送可能性を向上させることができる。
論文 参考訳(メタデータ) (2022-05-26T17:56:15Z) - ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation [76.35955924137986]
人間のポーズ推定データセットを微調整した結果,MAEプリトレーニング付きプレーン・ビジョン・トランスフォーマが優れた性能が得られることを示す。
10億のパラメータを持つ ViTAE-G バックボーンをベースとした我々の最大の ViTPose モデルは MS COCO test-dev セット上で最高の 80.9 mAP を得る。
論文 参考訳(メタデータ) (2022-04-26T17:55:04Z) - Self-Supervised Learning with Swin Transformers [24.956637957269926]
ビジョントランスフォーマーをバックボーンアーキテクチャとして,MoBYと呼ばれる自己監視型学習アプローチを提案する。
このアプローチには基本的に新しい発明がなく、MoCo v2とBYOLを組み合わせている。
パフォーマンスは、DeiTをバックボーンとして採用しているMoCo v3とDINOの最近の作品よりもわずかに優れていますが、はるかに軽いトリックがあります。
論文 参考訳(メタデータ) (2021-05-10T17:59:45Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。