論文の概要: Rethinking Spatial Dimensions of Vision Transformers
- arxiv url: http://arxiv.org/abs/2103.16302v1
- Date: Tue, 30 Mar 2021 12:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 20:29:39.259849
- Title: Rethinking Spatial Dimensions of Vision Transformers
- Title(参考訳): 視覚トランスフォーマーの空間次元再考
- Authors: Byeongho Heo, Sangdoo Yun, Dongyoon Han, Sanghyuk Chun, Junsuk Choe,
Seong Joon Oh
- Abstract要約: Vision Transformer (ViT) は、言語処理からコンピュータビジョンタスクまで、トランスフォーマーの応用範囲を広げる。
トランスアーキテクチャにおける空間次元変換の役割とその有効性について検討する。
オリジナルViTモデルに基づく新しいPooling-based Vision Transformer (PiT)を提案する。
- 参考スコア(独自算出の注目度): 34.13899937264952
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision Transformer (ViT) extends the application range of transformers from
language processing to computer vision tasks as being an alternative
architecture against the existing convolutional neural networks (CNN). Since
the transformer-based architecture has been innovative for computer vision
modeling, the design convention towards an effective architecture has been less
studied yet. From the successful design principles of CNN, we investigate the
role of the spatial dimension conversion and its effectiveness on the
transformer-based architecture. We particularly attend the dimension reduction
principle of CNNs; as the depth increases, a conventional CNN increases channel
dimension and decreases spatial dimensions. We empirically show that such a
spatial dimension reduction is beneficial to a transformer architecture as
well, and propose a novel Pooling-based Vision Transformer (PiT) upon the
original ViT model. We show that PiT achieves the improved model capability and
generalization performance against ViT. Throughout the extensive experiments,
we further show PiT outperforms the baseline on several tasks such as image
classification, object detection and robustness evaluation. Source codes and
ImageNet models are available at https://github.com/naver-ai/pit
- Abstract(参考訳): Vision Transformer (ViT)は、言語処理からコンピュータビジョンタスクまでのトランスフォーマーの応用範囲を、既存の畳み込みニューラルネットワーク(CNN)に対する代替アーキテクチャとして拡張する。
トランスフォーマーベースのアーキテクチャはコンピュータビジョンモデリングに革新的であるため、効果的なアーキテクチャに向けた設計規約はまだ研究されていない。
cnnの成功した設計原理から,空間次元変換の役割とトランスフォーマーアーキテクチャの有効性について検討する。
我々は,CNNの次元減少原理に特に参加し,深さが大きくなるにつれて,従来のCNNはチャネル次元を増大させ,空間次元を減少させる。
このような空間次元の縮小がトランスアーキテクチャにも有益であることを実証的に示し、オリジナルの ViT モデルに基づく新しいPooling-based Vision Transformer (PiT) を提案する。
モデル性能の向上とViTに対する一般化性能をPiTが実現していることを示す。
広範な実験を通じて,画像分類や物体検出,ロバスト性評価など,いくつかのタスクにおいてpitがベースラインを上回ることを示す。
ソースコードとimagenetモデルはhttps://github.com/naver-ai/pitで入手できる。
関連論文リスト
- Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文 参考訳(メタデータ) (2023-09-19T16:00:49Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Swin-Pose: Swin Transformer Based Human Pose Estimation [16.247836509380026]
畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンタスクで広く利用されている。
CNNは、固定された受信フィールドを持ち、人間のポーズ推定に不可欠である長距離知覚能力に欠ける。
本稿では,特徴ピラミッド融合構造により拡張されたトランスフォーマーアーキテクチャに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-01-19T02:15:26Z) - Rethinking the Design Principles of Robust Vision Transformer [28.538786330184642]
視覚トランスフォーマー (vit) は、従来の畳み込みニューラルネットワーク (cnns) をほとんどの視覚タスクで上回っていることを示した。
本稿では, ViTs の設計原理を堅牢性に基づいて再考する。
堅牢な設計部品を組み合わせることで、ロバストビジョントランス(RVT)を提案します。
論文 参考訳(メタデータ) (2021-05-17T15:04:15Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。