論文の概要: Rethinking Hierarchicies in Pre-trained Plain Vision Transformer
- arxiv url: http://arxiv.org/abs/2211.01785v1
- Date: Thu, 3 Nov 2022 13:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 13:37:53.914749
- Title: Rethinking Hierarchicies in Pre-trained Plain Vision Transformer
- Title(参考訳): プレトレーニングプレーンビジョントランスにおける階層性の再考
- Authors: Yufei Xu, Jing Zhang, Qiming Zhang and Dacheng Tao
- Abstract要約: マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
- 参考スコア(独自算出の注目度): 76.35955924137986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised pre-training vision transformer (ViT) via masked image
modeling (MIM) has been proven very effective. However, customized algorithms
should be carefully designed for the hierarchical ViTs, e.g., GreenMIM, instead
of using the vanilla and simple MAE for the plain ViT. More importantly, since
these hierarchical ViTs cannot reuse the off-the-shelf pre-trained weights of
the plain ViTs, the requirement of pre-training them leads to a massive amount
of computational cost, thereby incurring both algorithmic and computational
complexity. In this paper, we address this problem by proposing a novel idea of
disentangling the hierarchical architecture design from the self-supervised
pre-training. We transform the plain ViT into a hierarchical one with minimal
changes. Technically, we change the stride of linear embedding layer from 16 to
4 and add convolution (or simple average) pooling layers between the
transformer blocks, thereby reducing the feature size from 1/4 to 1/32
sequentially. Despite its simplicity, it outperforms the plain ViT baseline in
classification, detection, and segmentation tasks on ImageNet, MS COCO,
Cityscapes, and ADE20K benchmarks, respectively. We hope this preliminary study
could draw more attention from the community on developing effective
(hierarchical) ViTs while avoiding the pre-training cost by leveraging the
off-the-shelf checkpoints. The code and models will be released at
https://github.com/ViTAE-Transformer/HPViT.
- Abstract(参考訳): マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
しかし、カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使う代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
さらに重要なのは、これらの階層的なViTは通常のViTの既修重量を再利用できないため、事前学習の要求は膨大な計算コストをもたらし、アルゴリズムと計算の複雑さが生じる。
本稿では,階層型アーキテクチャ設計を自己指導型事前学習から切り離すという新しい考え方を提案する。
私たちは、平易なViTを最小限の変更で階層的なものにします。
技術的には、線形埋め込み層のストライドを16から4に変更し、変圧器ブロック間の畳み込み(あるいは単純な平均)層を追加し、1/4から1/32に順次特徴量を減少させる。
その単純さにもかかわらず、ImageNet、MS COCO、Cityscapes、ADE20Kベンチマークの分類、検出、セグメンテーションタスクにおいて、通常のViTベースラインを上回っている。
この予備研究は、市販のチェックポイントを利用して事前訓練コストを回避しつつ、効果的な(階層的な)vitの開発にコミュニティの関心を惹きつけることを期待している。
コードとモデルはhttps://github.com/ViTAE-Transformer/HPViTでリリースされる。
関連論文リスト
- PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。