論文の概要: How Do Vision Transformers Work?
- arxiv url: http://arxiv.org/abs/2202.06709v1
- Date: Mon, 14 Feb 2022 13:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 21:28:26.988293
- Title: How Do Vision Transformers Work?
- Title(参考訳): 視覚トランスフォーマーはどのように動作するのか?
- Authors: Namuk Park, Songkuk Kim
- Abstract要約: コンピュータビジョンのためのマルチヘッド自己注意(MSA)の成功は疑わしい。
我々はMSAの性質をよりよく理解するための基本的な説明を提示する。
本稿では,ステージ終了時のConvブロックをMSAブロックに置き換えるモデルであるAlterNetを提案する。
- 参考スコア(独自算出の注目度): 4.56877715768796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of multi-head self-attentions (MSAs) for computer vision is now
indisputable. However, little is known about how MSAs work. We present
fundamental explanations to help better understand the nature of MSAs. In
particular, we demonstrate the following properties of MSAs and Vision
Transformers (ViTs): (1) MSAs improve not only accuracy but also generalization
by flattening the loss landscapes. Such improvement is primarily attributable
to their data specificity, not long-range dependency. On the other hand, ViTs
suffer from non-convex losses. Large datasets and loss landscape smoothing
methods alleviate this problem; (2) MSAs and Convs exhibit opposite behaviors.
For example, MSAs are low-pass filters, but Convs are high-pass filters.
Therefore, MSAs and Convs are complementary; (3) Multi-stage neural networks
behave like a series connection of small individual models. In addition, MSAs
at the end of a stage play a key role in prediction. Based on these insights,
we propose AlterNet, a model in which Conv blocks at the end of a stage are
replaced with MSA blocks. AlterNet outperforms CNNs not only in large data
regimes but also in small data regimes. The code is available at
https://github.com/xxxnell/how-do-vits-work.
- Abstract(参考訳): コンピュータビジョンのためのマルチヘッド自己注意(MSA)の成功は、今や疑わしい。
しかし、MSAの動作についてはほとんど分かっていない。
我々はMSAの性質をよりよく理解するための基本的な説明を示す。
特に,MSAと視覚変換器(ViTs)の特性を示す。(1)MSAは精度を向上するだけでなく,損失景観を平らにすることで一般化する。
このような改善は主に、長距離依存ではなく、データ特異性に起因する。
一方、ViTは非凸損失に悩まされている。
大規模なデータセットと損失景観の平滑化手法はこの問題を緩和する; (2) MSAとConvsは反対の振る舞いを示す。
例えば、MSAはローパスフィルタであるが、Convはハイパスフィルタである。
したがって、msaとconvは相補的であり、(3)多段ニューラルネットワークは小さな個々のモデルの直列接続のように振る舞う。
加えて、ステージの最後にあるmsaは、予測において重要な役割を果たす。
これらの知見に基づいて,段階末のConvブロックをMSAブロックに置き換えるモデルであるAlterNetを提案する。
AlterNetは、大規模なデータレギュレーションだけでなく、小さなデータレギュレーションでもCNNを上回っている。
コードはhttps://github.com/xxxnell/how-do-vits-workで入手できる。
関連論文リスト
- Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Delving into the Scale Variance Problem in Object Detection [38.81729426906514]
本稿では,スケール分散問題に対処するマルチスケール畳み込み(MSConv)を提案する。
MSConvは効率的で計算効率が良いが、計算コストは少ない。
単スケールテストでは48.9%のAPが達成し、最先端の手法を超越しています。
論文 参考訳(メタデータ) (2022-06-16T14:52:17Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Vision Transformers with Hierarchical Attention [61.16912607330001]
本稿では、視覚変換器におけるMHSA(Multi-Head Self-Attention)に関連する計算・空間の複雑さに対処する。
階層型MHSA(Hierarchical MHSA, H-MHSA)を提案する。
我々は階層型アテンションベースのトランスフォーマーネットワーク,すなわちHAT-Netのファミリを構築する。
論文 参考訳(メタデータ) (2021-06-06T17:01:13Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。