Fugu-MT 論文翻訳(概要): MonoViT: Self-Supervised Monocular Depth Estimation with a Vision Transformer

論文の概要: MonoViT: Self-Supervised Monocular Depth Estimation with a Vision Transformer

arxiv url: http://arxiv.org/abs/2208.03543v1
Date: Sat, 6 Aug 2022 16:54:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-09 13:21:46.780360
Title: MonoViT: Self-Supervised Monocular Depth Estimation with a Vision Transformer
Title（参考訳）: MonoViT:視覚変換器を用いた自己監督単眼深度推定
Authors: Chaoqiang Zhao, Youmin Zhang, Matteo Poggi, Fabio Tosi, Xianda Guo, Zheng Zhu, Guan Huang, Yang Tang, Stefano Mattoccia
Abstract要約: 自己教師付き単眼深度推定の柔軟性とViTモデルにより実現された大域的推論の枠組みであるMonoViTを提案する。平易な畳み込みとTransformerブロックを組み合わせることで、我々のモデルは局所的かつグローバルに推論し、より詳細な精度と精度で深度予測を行うことができる。
参考スコア（独自算出の注目度）: 52.0699787446221
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised monocular depth estimation is an attractive solution that does not require hard-to-source depth labels for training. Convolutional neural networks (CNNs) have recently achieved great success in this task. However, their limited receptive field constrains existing network architectures to reason only locally, dampening the effectiveness of the self-supervised paradigm. In the light of the recent successes achieved by Vision Transformers (ViTs), we propose MonoViT, a brand-new framework combining the global reasoning enabled by ViT models with the flexibility of self-supervised monocular depth estimation. By combining plain convolutions with Transformer blocks, our model can reason locally and globally, yielding depth prediction at a higher level of detail and accuracy, allowing MonoViT to achieve state-of-the-art performance on the established KITTI dataset. Moreover, MonoViT proves its superior generalization capacities on other datasets such as Make3D and DrivingStereo.
Abstract（参考訳）: 自己教師付き単分子深度推定は、訓練にハード・ソースの深度ラベルを必要としない魅力的な解である。畳み込みニューラルネットワーク(CNN)は、最近このタスクで大きな成功を収めた。しかし、その限定的な受容領域は、既存のネットワークアーキテクチャを局所的な推論のみに制限し、自己監督パラダイムの有効性を損なう。ビジョントランスフォーマー (ViTs) が最近達成した成果を踏まえ, ViT モデルで実現したグローバル推論と自己教師型モノクロ深度推定の柔軟性を組み合わせた新しいフレームワーク MonoViT を提案する。平易な畳み込みとTransformerブロックを組み合わせることで、我々のモデルは局所的および世界的推論が可能となり、より詳細な精度と精度で深度予測が得られ、MonoViTは確立されたKITTIデータセット上で最先端のパフォーマンスを達成できる。さらに、MonoViTはMake3DやDrivingStereoといった他のデータセットよりも優れた一般化能力を示している。

関連論文リスト

MonoCT: Overcoming Monocular 3D Detection Domain Shift with Consistent Teacher Models [33.87605068407066]
我々は,自己監督のための高精度な擬似ラベルを生成する,新しい教師なしドメイン適応手法,MonoCTを導入する。 6つのベンチマークの実験において、MonoCTは既存のSOTAドメイン適応法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2025-03-17T21:59:41Z)
Simple Self Organizing Map with Visual Transformer [1.3121410433987561]
視覚変換器(ViT)は様々な視覚タスクにおいて異常な性能を示した。インダクティブバイアスの欠如により、ViTは小さなデータセットではパフォーマンスが劣る傾向にある。自己組織化マップ(SOM)は、本質的にトポロジーと空間的組織を保存するために構成されている。
論文参考訳（メタデータ） (2025-03-06T05:58:41Z)
Mono2Stereo: Monocular Knowledge Transfer for Enhanced Stereo Matching [7.840781070208874]
ステレオマッチング,すなわちMono2Stereoを強化するために,モノラルな知識伝達を活用することを提案する。合成データ事前学習と実世界のデータ微調整を併用した2段階の学習プロセスによる知識伝達を導入する。実験の結果,事前学習したモデルでは強いゼロショット能力を示すことがわかった。
論文参考訳（メタデータ） (2024-11-14T03:01:36Z)
Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。 CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文参考訳（メタデータ） (2024-07-28T11:52:36Z)
A lightweight Transformer-based model for fish landmark detection [4.08805092034476]
我々は移動魚のランドマーク検出ネットワーク(MFLD-net)と呼ばれる新しいモデルアーキテクチャを開発する。 MFLD-netは、軽量でありながら、低いデータレシエーションにおいて、競争力またはより良い結果を達成することができる。 ViTとは異なり、MFLD-netは事前トレーニングされたモデルを必要としない。
論文参考訳（メタデータ） (2022-09-13T07:18:57Z)
Deep Digging into the Generalization of Self-Supervised Monocular Depth Estimation [12.336888210144936]
近年,自己監督型単分子深度推定法が広く研究されている。単眼深度推定の一般化に向けたバックボーンネットワーク(CNN, Transformer, CNN-Transformerハイブリッドモデルなど)について検討する。
論文参考訳（メタデータ） (2022-05-23T06:56:25Z)
EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文参考訳（メタデータ） (2022-05-06T18:17:19Z)
DepthFormer: Exploiting Long-Range Correlation and Local Information for Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文参考訳（メタデータ） (2022-03-27T05:03:56Z)
A Simple Single-Scale Vision Transformer for Object Localization and Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。 UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-12-17T20:11:56Z)
SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文参考訳（メタデータ） (2021-12-03T13:57:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。