論文の概要: Patches Are All You Need?
- arxiv url: http://arxiv.org/abs/2201.09792v1
- Date: Mon, 24 Jan 2022 16:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 13:37:00.303664
- Title: Patches Are All You Need?
- Title(参考訳): パッチは必要なの?
- Authors: Asher Trockman, J. Zico Kolter
- Abstract要約: ビジョントランスフォーマー(ViT)モデルは、いくつかの設定でパフォーマンスを上回る可能性がある。
ViTは、イメージの小さな領域を単一の入力機能にまとめるパッチ埋め込みを使用する必要がある。
本質的によりパワフルなTransformerアーキテクチャによるViTのパフォーマンスは、少なくとも部分的には、入力表現としてパッチを使用することによるものなのでしょうか?
- 参考スコア(独自算出の注目度): 96.88889685873106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although convolutional networks have been the dominant architecture for
vision tasks for many years, recent experiments have shown that
Transformer-based models, most notably the Vision Transformer (ViT), may exceed
their performance in some settings. However, due to the quadratic runtime of
the self-attention layers in Transformers, ViTs require the use of patch
embeddings, which group together small regions of the image into single input
features, in order to be applied to larger image sizes. This raises a question:
Is the performance of ViTs due to the inherently-more-powerful Transformer
architecture, or is it at least partly due to using patches as the input
representation? In this paper, we present some evidence for the latter:
specifically, we propose the ConvMixer, an extremely simple model that is
similar in spirit to the ViT and the even-more-basic MLP-Mixer in that it
operates directly on patches as input, separates the mixing of spatial and
channel dimensions, and maintains equal size and resolution throughout the
network. In contrast, however, the ConvMixer uses only standard convolutions to
achieve the mixing steps. Despite its simplicity, we show that the ConvMixer
outperforms the ViT, MLP-Mixer, and some of their variants for similar
parameter counts and data set sizes, in addition to outperforming classical
vision models such as the ResNet. Our code is available at
https://github.com/locuslab/convmixer.
- Abstract(参考訳): 畳み込みネットワークは長年、視覚タスクにおいて支配的なアーキテクチャであったが、最近の実験により、トランスフォーマーベースのモデル、特にビジョントランスフォーマー(ViT)がいくつかの設定で性能を上回る可能性があることが示されている。
しかし、トランスフォーマーの自己アテンション層が二次的に実行されるため、vitsでは、より大きな画像サイズに適用するために、画像の小さな領域を単一の入力機能にグループ化するパッチ埋め込みの使用が必要となる。
本質的によりパワフルなTransformerアーキテクチャによるViTのパフォーマンスは、少なくとも部分的には、入力表現としてパッチを使用することによるものなのでしょうか?
特に,vit やさらに基本的な mlp-mixer に類似する非常に単純なモデルである convmixer を提案し,入力としてパッチを直接操作し,空間次元とチャネル次元の混合を分離し,ネットワーク全体のサイズと解像度を等しく維持する。
しかし対照的に、ConvMixerは混合ステップを達成するために標準の畳み込みのみを使用する。
その単純さにもかかわらず、convmixerはvit、mlp-mixer、および類似のパラメータ数やデータセットサイズに対するいくつかのバリエーションよりも優れており、またresnetのような古典的なビジョンモデルよりも優れていることを示している。
私たちのコードはhttps://github.com/locuslab/convmixerで利用可能です。
関連論文リスト
- Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision
Transformers [15.108494142240993]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。
高い計算複雑性は、ViTsのメモリとコンピューティングリソースの制限のあるデバイスへの適用性を妨げている。
小型VTを改良するための新しいチャネルシャッフルモジュールを提案する。
論文 参考訳(メタデータ) (2023-10-09T11:56:35Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - PatchBlender: A Motion Prior for Video Transformers [35.47505911122298]
我々は、学習可能なブレンディング関数であるPatchBlenderを紹介した。
本稿では,映像データの時間成分を符号化する視覚変換器の実現に成功していることを示す。
論文 参考訳(メタデータ) (2022-11-11T14:43:16Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - MiniViT: Compressing Vision Transformers with Weight Multiplexing [88.54212027516755]
ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。
MiniViTは新しい圧縮フレームワークで、同じ性能を維持しながらビジョントランスフォーマーのパラメータ削減を実現する。
論文 参考訳(メタデータ) (2022-04-14T17:59:05Z) - MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-21T06:34:50Z) - TransMix: Attend to Mix for Vision Transformers [26.775918851867246]
視覚変換器のアテンションマップに基づいてラベルを混合するTransMixを提案する。
対応する入力画像がアテンションマップによって重み付けされた場合、ラベルの信頼性が大きくなる。
TransMixは、ImageNet分類に基づいて、様々なViTベースのモデルを継続的に改善する。
論文 参考訳(メタデータ) (2021-11-18T17:59:42Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。