論文の概要: HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2205.14949v1
- Date: Mon, 30 May 2022 09:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 03:31:46.156740
- Title: HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling
- Title(参考訳): HiViT: 階層型ヴィジュアルトランスフォーマーがマズード画像モデリングに挑戦
- Authors: Xiaosong Zhang, Yunjie Tian, Wei Huang, Qixiang Ye, Qi Dai, Lingxi
Xie, Qi Tian
- Abstract要約: 我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
- 参考スコア(独自算出の注目度): 126.89573619301953
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, masked image modeling (MIM) has offered a new methodology of
self-supervised pre-training of vision transformers. A key idea of efficient
implementation is to discard the masked image patches (or tokens) throughout
the target network (encoder), which requires the encoder to be a plain vision
transformer (e.g., ViT), albeit hierarchical vision transformers (e.g., Swin
Transformer) have potentially better properties in formulating vision inputs.
In this paper, we offer a new design of hierarchical vision transformers named
HiViT (short for Hierarchical ViT) that enjoys both high efficiency and good
performance in MIM. The key is to remove the unnecessary "local inter-unit
operations", deriving structurally simple hierarchical vision transformers in
which mask-units can be serialized like plain vision transformers. For this
purpose, we start with Swin Transformer and (i) set the masking unit size to be
the token size in the main stage of Swin Transformer, (ii) switch off
inter-unit self-attentions before the main stage, and (iii) eliminate all
operations after the main stage. Empirical studies demonstrate the advantageous
performance of HiViT in terms of fully-supervised, self-supervised, and
transfer learning. In particular, in running MAE on ImageNet-1K, HiViT-B
reports a +0.6% accuracy gain over ViT-B and a 1.9$\times$ speed-up over
Swin-B, and the performance gain generalizes to downstream tasks of detection
and segmentation. Code will be made publicly available.
- Abstract(参考訳): 近年、マスク画像モデリング (mim) は視覚トランスフォーマーの自己教師付き事前学習の新しい手法を提供している。
効率的な実装の鍵となるアイデアは、ターゲットネットワーク(エンコーダ)全体にマスクされたイメージパッチ(またはトークン)を破棄することであり、これはエンコーダをプレーンビジョントランスフォーマー(例えばvit)にする必要があるが、階層的ビジョントランスフォーマー(例えばswinトランスフォーマ)は、視覚入力を定式化する上で、潜在的に優れた特性を持っている。
本稿では,MIMにおける高効率と優れた性能を両立するHiViT(Hierarchical ViT)という階層型視覚変換器の設計を提案する。
鍵となるのは、マスクユニットをプレーンビジョントランスフォーマーのようにシリアライズできる構造的に単純な階層型視覚トランスフォーマーから、不要な「局所的なユニット間操作」を取り除くことである。
この目的のために スウィントランスから始めます
(i)スウィントランスのメインステージにおいて、マスキングユニットサイズをトークンサイズに設定する。
(ii)メインステージの前にユニット間自己接続をオフにし、
(iii)メインステージ以降のすべての操作を除外する。
実証的研究は、完全教師付き、自己教師付き、および伝達学習の観点から、HiViTの有利な性能を示す。
特に ImageNet-1K 上で MAE を実行する場合、HiViT-B は ViT-B よりも +0.6% の精度向上と Swin-B よりも 1.9$\times$ のスピードアップを報告している。
コードは公開される予定だ。
関連論文リスト
- CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Efficient Attention-free Video Shift Transformers [56.87581500474093]
本稿では,効率的な映像認識の問題に取り組む。
ビデオトランスは、最近、効率(トップ1精度対FLOP)のスペクトルを支配している。
我々はビデオ領域における定式化を拡張してビデオアフィンシフト変換器を構築する。
論文 参考訳(メタデータ) (2022-08-23T17:48:29Z) - Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文 参考訳(メタデータ) (2022-03-03T09:30:55Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。