論文の概要: Three things everyone should know about Vision Transformers
- arxiv url: http://arxiv.org/abs/2203.09795v1
- Date: Fri, 18 Mar 2022 08:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:09:07.744332
- Title: Three things everyone should know about Vision Transformers
- Title(参考訳): 視覚トランスフォーマーについてみんな知っておくべき3つのこと
- Authors: Hugo Touvron, Matthieu Cord, Alaaeldin El-Nouby, Jakob Verbeek,
Herv\'e J\'egou
- Abstract要約: トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
- 参考スコア(独自算出の注目度): 67.30250766591405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: After their initial success in natural language processing, transformer
architectures have rapidly gained traction in computer vision, providing
state-of-the-art results for tasks such as image classification, detection,
segmentation, and video analysis. We offer three insights based on simple and
easy to implement variants of vision transformers. (1) The residual layers of
vision transformers, which are usually processed sequentially, can to some
extent be processed efficiently in parallel without noticeably affecting the
accuracy. (2) Fine-tuning the weights of the attention layers is sufficient to
adapt vision transformers to a higher resolution and to other classification
tasks. This saves compute, reduces the peak memory consumption at fine-tuning
time, and allows sharing the majority of weights across tasks. (3) Adding
MLP-based patch pre-processing layers improves Bert-like self-supervised
training based on patch masking. We evaluate the impact of these design choices
using the ImageNet-1k dataset, and confirm our findings on the ImageNet-v2 test
set. Transfer performance is measured across six smaller datasets.
- Abstract(参考訳): 自然言語処理での最初の成功の後、トランスフォーマーアーキテクチャはコンピュータビジョンにおいて急速に勢いを増し、画像分類、検出、セグメンテーション、ビデオ解析といったタスクに最先端の結果を提供している。
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
1) 視覚変換器の残層は通常順次処理されるが, 精度に顕著な影響を及ぼすことなく, ある程度の並列処理が可能である。
2)注目層の重みを微調整すれば,高解像度の視覚変換器や他の分類タスクに適応できる。
これにより、計算を省き、微調整時のピークメモリ消費量を削減し、タスク間で重みの大半を共有できる。
(3) MLPベースのパッチ前処理レイヤーの追加は、パッチマスキングに基づくバートのような自己教師型トレーニングを改善する。
我々は、imagenet-1kデータセットを用いて、これらの設計選択の影響を評価し、imagenet-v2テストセットで結果を確認した。
転送性能は6つの小さなデータセットで測定される。
関連論文リスト
- CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z) - Improve Vision Transformers Training by Suppressing Over-smoothing [28.171262066145612]
トランス構造をコンピュータビジョンのタスクに導入することで、従来の畳み込みネットワークよりも優れたスピード精度のトレードオフが得られます。
しかし、視覚タスクでバニラ変圧器を直接訓練すると、不安定で準最適結果が得られることが示されている。
近年の研究では,視覚タスクの性能向上のために,畳み込み層を導入してトランスフォーマー構造を改良することを提案する。
論文 参考訳(メタデータ) (2021-04-26T17:43:04Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。