論文の概要: MonoViT: Self-Supervised Monocular Depth Estimation with a Vision
Transformer
- arxiv url: http://arxiv.org/abs/2208.03543v1
- Date: Sat, 6 Aug 2022 16:54:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:21:46.780360
- Title: MonoViT: Self-Supervised Monocular Depth Estimation with a Vision
Transformer
- Title(参考訳): MonoViT:視覚変換器を用いた自己監督単眼深度推定
- Authors: Chaoqiang Zhao, Youmin Zhang, Matteo Poggi, Fabio Tosi, Xianda Guo,
Zheng Zhu, Guan Huang, Yang Tang, Stefano Mattoccia
- Abstract要約: 自己教師付き単眼深度推定の柔軟性とViTモデルにより実現された大域的推論の枠組みであるMonoViTを提案する。
平易な畳み込みとTransformerブロックを組み合わせることで、我々のモデルは局所的かつグローバルに推論し、より詳細な精度と精度で深度予測を行うことができる。
- 参考スコア(独自算出の注目度): 52.0699787446221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised monocular depth estimation is an attractive solution that
does not require hard-to-source depth labels for training. Convolutional neural
networks (CNNs) have recently achieved great success in this task. However,
their limited receptive field constrains existing network architectures to
reason only locally, dampening the effectiveness of the self-supervised
paradigm. In the light of the recent successes achieved by Vision Transformers
(ViTs), we propose MonoViT, a brand-new framework combining the global
reasoning enabled by ViT models with the flexibility of self-supervised
monocular depth estimation. By combining plain convolutions with Transformer
blocks, our model can reason locally and globally, yielding depth prediction at
a higher level of detail and accuracy, allowing MonoViT to achieve
state-of-the-art performance on the established KITTI dataset. Moreover,
MonoViT proves its superior generalization capacities on other datasets such as
Make3D and DrivingStereo.
- Abstract(参考訳): 自己教師付き単分子深度推定は、訓練にハード・ソースの深度ラベルを必要としない魅力的な解である。
畳み込みニューラルネットワーク(CNN)は、最近このタスクで大きな成功を収めた。
しかし、その限定的な受容領域は、既存のネットワークアーキテクチャを局所的な推論のみに制限し、自己監督パラダイムの有効性を損なう。
ビジョントランスフォーマー (ViTs) が最近達成した成果を踏まえ, ViT モデルで実現したグローバル推論と自己教師型モノクロ深度推定の柔軟性を組み合わせた新しいフレームワーク MonoViT を提案する。
平易な畳み込みとTransformerブロックを組み合わせることで、我々のモデルは局所的および世界的推論が可能となり、より詳細な精度と精度で深度予測が得られ、MonoViTは確立されたKITTIデータセット上で最先端のパフォーマンスを達成できる。
さらに、MonoViTはMake3DやDrivingStereoといった他のデータセットよりも優れた一般化能力を示している。
関連論文リスト
- Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文 参考訳(メタデータ) (2024-07-28T11:52:36Z) - Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular
Depth Estimation [33.018300966769516]
アートのほとんどの状態(SOTA)は、与えられた入力画像から不均一マップを予測するために、自己監督的かつ教師なしの領域で機能する。
我々のモデルは、2つの完全畳み込み深度エンコーダを用いて学習した画素ごとの局所情報と、トランスフォーマーエンコーダによって異なるスケールで学習されたグローバルな文脈情報とを融合させる。
これは、ほとんどの標準ベンチマークで最先端のパフォーマンスを達成するために、機能領域におけるマスク誘導マルチストリームの畳み込みを使用する。
論文 参考訳(メタデータ) (2022-11-20T20:00:21Z) - A lightweight Transformer-based model for fish landmark detection [4.08805092034476]
我々は移動魚のランドマーク検出ネットワーク(MFLD-net)と呼ばれる新しいモデルアーキテクチャを開発する。
MFLD-netは、軽量でありながら、低いデータレシエーションにおいて、競争力またはより良い結果を達成することができる。
ViTとは異なり、MFLD-netは事前トレーニングされたモデルを必要としない。
論文 参考訳(メタデータ) (2022-09-13T07:18:57Z) - Deep Digging into the Generalization of Self-Supervised Monocular Depth
Estimation [12.336888210144936]
近年,自己監督型単分子深度推定法が広く研究されている。
単眼深度推定の一般化に向けたバックボーンネットワーク(CNN, Transformer, CNN-Transformerハイブリッドモデルなど)について検討する。
論文 参考訳(メタデータ) (2022-05-23T06:56:25Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。
UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T20:11:56Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。