論文の概要: Accelerating Vision Transformer Training via a Patch Sampling Schedule
- arxiv url: http://arxiv.org/abs/2208.09520v1
- Date: Fri, 19 Aug 2022 19:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:10:45.863627
- Title: Accelerating Vision Transformer Training via a Patch Sampling Schedule
- Title(参考訳): パッチサンプリングスケジュールによる視覚トランスフォーマートレーニングの高速化
- Authors: Bradley McDanel, Chi Phuong Huynh
- Abstract要約: 我々は、パッチサンプリングスケジュール(PSS)の概念を導入する。
PSSは、トレーニング中にバッチ毎に使用するビジョントランスフォーマー(ViT)パッチの数を変える。
PSSを用いたトレーニングにより、ViTは推論中により広いパッチサンプリング範囲に対してより堅牢になる。
- 参考スコア(独自算出の注目度): 0.685316573653194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the notion of a Patch Sampling Schedule (PSS), that varies the
number of Vision Transformer (ViT) patches used per batch during training.
Since all patches are not equally important for most vision objectives (e.g.,
classification), we argue that less important patches can be used in fewer
training iterations, leading to shorter training time with minimal impact on
performance. Additionally, we observe that training with a PSS makes a ViT more
robust to a wider patch sampling range during inference. This allows for a
fine-grained, dynamic trade-off between throughput and accuracy during
inference. We evaluate using PSSs on ViTs for ImageNet both trained from
scratch and pre-trained using a reconstruction loss function. For the
pre-trained model, we achieve a 0.26% reduction in classification accuracy for
a 31% reduction in training time (from 25 to 17 hours) compared to using all
patches each iteration. Code, model checkpoints and logs are available at
https://github.com/BradMcDanel/pss.
- Abstract(参考訳): 本稿では,訓練中にバッチ毎に使用する視覚トランスフォーマー(vit)パッチの数を変化させるパッチサンプリングスケジュール(pss)の概念を紹介する。
すべてのパッチは、ほとんどの視覚的目的(例えば分類)において等しく重要ではないので、より重要でないパッチは、より少ないトレーニングイテレーションで使用できるため、パフォーマンスに最小限の影響を与える訓練時間が短くなる、と我々は主張する。
さらに、PSSを用いたトレーニングにより、ViTは推論中により広いパッチサンプリング範囲に対してより堅牢になる。
これにより、推論中にスループットと正確性の間のきめ細かい動的トレードオフが可能になる。
我々は,再建損失関数を用いて,スクラッチからトレーニングした画像ネットに対して,VTT上のPSSを用いて評価を行った。
事前学習モデルでは,各パッチの使用時間に対して,訓練時間の31%削減(25時間から17時間)に対して,分類精度が0.26%低下した。
コード、モデルチェックポイント、ログはhttps://github.com/BradMcDanel/pssで確認できる。
関連論文リスト
- Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - PaPr: Training-Free One-Step Patch Pruning with Lightweight ConvNets for Faster Inference [11.112356346406365]
PaPrは、軽量なConvNetを使用して、最小限の精度で冗長なパッチを実質的に刈り取る方法である。
FLOPカウントの低減に類似した、最先端のパッチリダクション法よりもはるかに高い精度を実現している。
論文 参考訳(メタデータ) (2024-03-24T05:50:00Z) - FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。
これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。
トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:18:38Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - CowClip: Reducing CTR Prediction Model Training Time from 12 hours to 10
minutes on 1 GPU [14.764217935910988]
クリックスルーレート(CTR)予測タスクは、ユーザーが推奨項目をクリックするかどうかを予測することである。
トレーニング速度を上げるためのアプローチのひとつは、大規模なバッチトレーニングを適用することだ。
適応型カラムワイドクリッピング(CowClip)を開発し,大規模なバッチサイズ設定でトレーニングプロセスを安定化させる。
論文 参考訳(メタデータ) (2022-04-13T08:17:15Z) - PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.7922200135147]
本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。
対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。
提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
論文 参考訳(メタデータ) (2021-11-24T18:59:58Z) - Knowing When to Quit: Selective Cascaded Regression with Patch Attention
for Real-Time Face Alignment [0.0]
中性表現を持つ正面の顔は、極端なポーズや表情を持つ顔よりも早く収束することを示す。
マルチスケールでパッチベースの軽量な特徴抽出器と、きめ細かい局所的なパッチアテンションモジュールを提供する。
我々のモデルは、95 Mega Multiply-Add (MMA) 演算でモバイルデバイス GPU 上でリアルタイムに動作し、1000 MMA 以下の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-01T06:51:47Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z) - Unsupervised Visual Representation Learning by Tracking Patches in Video [88.56860674483752]
本研究では,コンピュータビジョンシステムのプロキシタスクとしてトラッキングを用いて視覚表現を学習することを提案する。
子どもたちがプレイするキャッチゲームをベースに、視覚表現を学ぶ3D-CNNモデルのためのキャッチ・ザ・パッチ(CtP)ゲームを設計します。
論文 参考訳(メタデータ) (2021-05-06T09:46:42Z) - Update Frequently, Update Fast: Retraining Semantic Parsing Systems in a
Fraction of Time [11.035461657669096]
微調整により,スクラッチからトレーニングしたモデルの性能を10%未満の時間で一致させることができることを示す。
提案手法がFacebook TOPとSNIPSデータセットの複数分割に対して有効であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。