論文の概要: Early Convolutions Help Transformers See Better
- arxiv url: http://arxiv.org/abs/2106.14881v1
- Date: Mon, 28 Jun 2021 17:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 18:00:58.041786
- Title: Early Convolutions Help Transformers See Better
- Title(参考訳): 初期のコンボリューションはトランスフォーマーを良くする
- Authors: Tete Xiao, Mannat Singh, Eric Mintun, Trevor Darrell, Piotr Doll\'ar,
Ross Girshick
- Abstract要約: 視覚変換器(ViT)モデルは準標準最適化性を示す。
現代の畳み込みニューラルネットワークは、最適化がはるかに容易である。
畳み込みステムをViTで使用すると、最適化の安定性が劇的に向上し、ピーク性能も向上する。
- 参考スコア(独自算出の注目度): 63.21712652156238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformer (ViT) models exhibit substandard optimizability. In
particular, they are sensitive to the choice of optimizer (AdamW vs. SGD),
optimizer hyperparameters, and training schedule length. In comparison, modern
convolutional neural networks are far easier to optimize. Why is this the case?
In this work, we conjecture that the issue lies with the patchify stem of ViT
models, which is implemented by a stride-p pxp convolution (p=16 by default)
applied to the input image. This large-kernel plus large-stride convolution
runs counter to typical design choices of convolutional layers in neural
networks. To test whether this atypical design choice causes an issue, we
analyze the optimization behavior of ViT models with their original patchify
stem versus a simple counterpart where we replace the ViT stem by a small
number of stacked stride-two 3x3 convolutions. While the vast majority of
computation in the two ViT designs is identical, we find that this small change
in early visual processing results in markedly different training behavior in
terms of the sensitivity to optimization settings as well as the final model
accuracy. Using a convolutional stem in ViT dramatically increases optimization
stability and also improves peak performance (by ~1-2% top-1 accuracy on
ImageNet-1k), while maintaining flops and runtime. The improvement can be
observed across the wide spectrum of model complexities (from 1G to 36G flops)
and dataset scales (from ImageNet-1k to ImageNet-21k). These findings lead us
to recommend using a standard, lightweight convolutional stem for ViT models as
a more robust architectural choice compared to the original ViT model design.
- Abstract(参考訳): 視覚変換器(ViT)モデルは準標準最適化性を示す。
特に、オプティマイザの選択(AdamW vs. SGD)、オプティマイザのハイパーパラメータ、スケジュールのトレーニングに敏感である。
対照的に、現代の畳み込みニューラルネットワークは最適化がはるかに容易である。
なぜそうなるのか?
本稿では,入力画像に適用したstride-p pxp畳み込み(デフォルトではp=16)によって実装されるvitモデルのパッチフィズ・ステムが問題となっていると推測する。
この大きなカーネルと大強度の畳み込みは、ニューラルネットワークにおける畳み込み層の典型的な設計選択に逆らう。
この非定型的な設計選択が問題を引き起こすかどうかを検証するため、vitモデルの最適化挙動をオリジナルのpatify stemで分析し、vit stemを少数のスタックストライド2、3x3畳み込みで置き換える単純な対応法と比較した。
2つのViT設計における計算の大部分は同一であるが、初期視覚処理におけるこの小さな変化は、最適化設定に対する感度と最終的なモデルの精度の点で、明らかに異なる訓練行動をもたらす。
ViTで畳み込みステムを使用すると、最適化の安定性が劇的に向上し、フロップとランタイムを維持しながらピークパフォーマンス(ImageNet-1kでは1-2%の精度で)が向上する。
この改善は、モデル複雑度(1Gから36Gフロップ)とデータセットスケール(ImageNet-1kからImageNet-21kまで)の幅広い範囲で観測できる。
これらの結果から,従来のViTモデルと比べ,より堅牢なアーキテクチャ選択として,標準的で軽量なコンボリューションステムを使用することを推奨した。
関連論文リスト
- PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Unified Visual Transformer Compression [102.26265546836329]
本稿では,3つの有効な手法をシームレスに組み立てる,統一的なViT圧縮フレームワークを提案する。
予算制約のあるエンドツーエンドの最適化フレームワークを定式化し、モデルウェイトを共同学習し、レイヤーワイドプルーニング比/マスクを作成し、構成をスキップする。
実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。
論文 参考訳(メタデータ) (2022-03-15T20:38:22Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。