Fugu-MT 論文翻訳(概要): Accelerating Vision Transformer Training via a Patch Sampling Schedule

論文の概要: Accelerating Vision Transformer Training via a Patch Sampling Schedule

arxiv url: http://arxiv.org/abs/2208.09520v1
Date: Fri, 19 Aug 2022 19:16:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-23 13:10:45.863627
Title: Accelerating Vision Transformer Training via a Patch Sampling Schedule
Title（参考訳）: パッチサンプリングスケジュールによる視覚トランスフォーマートレーニングの高速化
Authors: Bradley McDanel, Chi Phuong Huynh
Abstract要約: 我々は、パッチサンプリングスケジュール(PSS)の概念を導入する。 PSSは、トレーニング中にバッチ毎に使用するビジョントランスフォーマー(ViT)パッチの数を変える。 PSSを用いたトレーニングにより、ViTは推論中により広いパッチサンプリング範囲に対してより堅牢になる。
参考スコア（独自算出の注目度）: 0.685316573653194
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce the notion of a Patch Sampling Schedule (PSS), that varies the number of Vision Transformer (ViT) patches used per batch during training. Since all patches are not equally important for most vision objectives (e.g., classification), we argue that less important patches can be used in fewer training iterations, leading to shorter training time with minimal impact on performance. Additionally, we observe that training with a PSS makes a ViT more robust to a wider patch sampling range during inference. This allows for a fine-grained, dynamic trade-off between throughput and accuracy during inference. We evaluate using PSSs on ViTs for ImageNet both trained from scratch and pre-trained using a reconstruction loss function. For the pre-trained model, we achieve a 0.26% reduction in classification accuracy for a 31% reduction in training time (from 25 to 17 hours) compared to using all patches each iteration. Code, model checkpoints and logs are available at https://github.com/BradMcDanel/pss.
Abstract（参考訳）: 本稿では,訓練中にバッチ毎に使用する視覚トランスフォーマー(vit)パッチの数を変化させるパッチサンプリングスケジュール(pss)の概念を紹介する。すべてのパッチは、ほとんどの視覚的目的(例えば分類)において等しく重要ではないので、より重要でないパッチは、より少ないトレーニングイテレーションで使用できるため、パフォーマンスに最小限の影響を与える訓練時間が短くなる、と我々は主張する。さらに、PSSを用いたトレーニングにより、ViTは推論中により広いパッチサンプリング範囲に対してより堅牢になる。これにより、推論中にスループットと正確性の間のきめ細かい動的トレードオフが可能になる。我々は,再建損失関数を用いて,スクラッチからトレーニングした画像ネットに対して,VTT上のPSSを用いて評価を行った。事前学習モデルでは,各パッチの使用時間に対して,訓練時間の31%削減(25時間から17時間)に対して,分類精度が0.26%低下した。コード、モデルチェックポイント、ログはhttps://github.com/BradMcDanel/pssで確認できる。

関連論文リスト

Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
PaPr: Training-Free One-Step Patch Pruning with Lightweight ConvNets for Faster Inference [11.112356346406365]
PaPrは、軽量なConvNetを使用して、最小限の精度で冗長なパッチを実質的に刈り取る方法である。 FLOPカウントの低減に類似した、最先端のパッチリダクション法よりもはるかに高い精度を実現している。
論文参考訳（メタデータ） (2024-03-24T05:50:00Z)
FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文参考訳（メタデータ） (2022-12-15T18:18:38Z)
Peeling the Onion: Hierarchical Reduction of Data Redundancy for Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-19T21:15:47Z)
Patching open-vocabulary models by interpolating weights [85.12977566514984]
CLIPのようなオープン語彙モデルは、多くの画像分類タスクで高い精度を達成する。そこでは,すでに性能が十分であるタスクの精度を低下させることなく,特定のタスクの精度を向上させることを目標とするモデルパッチについて検討する。本研究は,開語彙モデルがスクラッチから再学習することなく高い精度を達成できる課題の集合を拡張することができることを示した。
論文参考訳（メタデータ） (2022-08-10T23:47:43Z)
CowClip: Reducing CTR Prediction Model Training Time from 12 hours to 10 minutes on 1 GPU [14.764217935910988]
クリックスルーレート(CTR)予測タスクは、ユーザーが推奨項目をクリックするかどうかを予測することである。トレーニング速度を上げるためのアプローチのひとつは、大規模なバッチトレーニングを適用することだ。適応型カラムワイドクリッピング(CowClip)を開発し,大規模なバッチサイズ設定でトレーニングプロセスを安定化させる。
論文参考訳（メタデータ） (2022-04-13T08:17:15Z)
PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.7922200135147]
本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
論文参考訳（メタデータ） (2021-11-24T18:59:58Z)
Knowing When to Quit: Selective Cascaded Regression with Patch Attention for Real-Time Face Alignment [0.0]
中性表現を持つ正面の顔は、極端なポーズや表情を持つ顔よりも早く収束することを示す。マルチスケールでパッチベースの軽量な特徴抽出器と、きめ細かい局所的なパッチアテンションモジュールを提供する。我々のモデルは、95 Mega Multiply-Add (MMA) 演算でモバイルデバイス GPU 上でリアルタイムに動作し、1000 MMA 以下の最先端の手法よりも優れています。
論文参考訳（メタデータ） (2021-08-01T06:51:47Z)
Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文参考訳（メタデータ） (2021-06-05T09:46:00Z)
Unsupervised Visual Representation Learning by Tracking Patches in Video [88.56860674483752]
本研究では,コンピュータビジョンシステムのプロキシタスクとしてトラッキングを用いて視覚表現を学習することを提案する。子どもたちがプレイするキャッチゲームをベースに、視覚表現を学ぶ3D-CNNモデルのためのキャッチ・ザ・パッチ(CtP)ゲームを設計します。
論文参考訳（メタデータ） (2021-05-06T09:46:42Z)
Update Frequently, Update Fast: Retraining Semantic Parsing Systems in a Fraction of Time [11.035461657669096]
微調整により,スクラッチからトレーニングしたモデルの性能を10%未満の時間で一致させることができることを示す。提案手法がFacebook TOPとSNIPSデータセットの複数分割に対して有効であることを示す。
論文参考訳（メタデータ） (2020-10-15T16:37:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。