論文の概要: Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction
- arxiv url: http://arxiv.org/abs/2103.12091v1
- Date: Mon, 22 Mar 2021 18:00:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 13:58:32.169850
- Title: Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction
- Title(参考訳): 変圧器は単眼深度予測のための限定受容場を解く
- Authors: Guanglei Yang, Hao Tang, Mingli Ding, Nicu Sebe, Elisa Ricci
- Abstract要約: 畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
- 参考スコア(独自算出の注目度): 82.90445525977904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While convolutional neural networks have shown a tremendous impact on various
computer vision tasks, they generally demonstrate limitations in explicitly
modeling long-range dependencies due to the intrinsic locality of the
convolution operation. Transformers, initially designed for natural language
processing tasks, have emerged as alternative architectures with innate global
self-attention mechanisms to capture long-range dependencies. In this paper, we
propose TransDepth, an architecture which benefits from both convolutional
neural networks and transformers. To avoid the network to loose its ability to
capture local-level details due to the adoption of transformers, we propose a
novel decoder which employs on attention mechanisms based on gates. Notably,
this is the first paper which applies transformers into pixel-wise prediction
problems involving continuous labels (i.e., monocular depth prediction and
surface normal estimation). Extensive experiments demonstrate that the proposed
TransDepth achieves state-of-the-art performance on three challenging datasets.
The source code and trained models are available at
https://github.com/ygjwd12345/TransDepth.
- Abstract(参考訳): 畳み込みニューラルネットワークは様々なコンピュータビジョンタスクに多大な影響を与えてきたが、畳み込み操作の固有の局所性に起因する長距離依存を明示的にモデル化する際の制限を一般的に示している。
自然言語処理タスク用に設計されたトランスフォーマーは、長距離依存関係をキャプチャする、自然にグローバルな自己認識機構を備えた代替アーキテクチャとして登場した。
本稿では,畳み込みニューラルネットワークとトランスフォーマーの両方の利点を生かしたアーキテクチャであるTransDepthを提案する。
変圧器の採用によりネットワークが局所的な詳細を捉える能力を緩めるのを避けるために,ゲートに基づく注意機構を利用した新しい復号器を提案する。
特に、連続ラベルを含む画素単位の予測問題(すなわち単眼深度予測と表面正規推定)にトランスフォーマーを適用する最初の論文である。
大規模な実験により、提案したTransDepthは3つの挑戦的なデータセットで最先端のパフォーマンスを実現する。
ソースコードとトレーニングされたモデルはhttps://github.com/ygjwd12345/transdepthで入手できる。
関連論文リスト
- TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism
for a Deep Segmentation Model [4.320393382724066]
畳み込みニューラルネットワーク(CNN)は、医療画像処理時代の主流技術である。
本稿では,Transformerモジュールをエンコーダとスキップ接続の両方に統合する,新しいディープセグメンテーションフレームワークであるTrans-Normを提案する。
論文 参考訳(メタデータ) (2022-07-27T09:54:10Z) - Defect Transformer: An Efficient Hybrid Transformer Architecture for
Surface Defect Detection [2.0999222360659604]
表面欠陥検出のための効率的なハイブリッドトランスアーキテクチャであるDefect Transformer (DefT)を提案する。
DefTはCNNとTransformerを統一モデルに組み込んで、局所的および非局所的関係を協調的にキャプチャする。
3つのデータセットの実験は、他のCNNやトランスフォーマーベースのネットワークと比較して、我々の手法の優位性と効率性を実証している。
論文 参考訳(メタデータ) (2022-07-17T23:37:48Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Visual Transformer for Object Detection [0.0]
我々は、自己注意を識別的視覚的タスク、オブジェクト検出に用いて、畳み込みの代替として検討する。
我々のモデルは、多くの異なるモデルとスケールにわたるCOCOのオブジェクト検出において、一貫した改善をもたらす。
論文 参考訳(メタデータ) (2022-06-01T06:13:09Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。