論文の概要: Local Masking Meets Progressive Freezing: Crafting Efficient Vision
Transformers for Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2312.02194v1
- Date: Sat, 2 Dec 2023 11:10:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:34:52.241289
- Title: Local Masking Meets Progressive Freezing: Crafting Efficient Vision
Transformers for Self-Supervised Learning
- Title(参考訳): プログレッシブ凍結 - 自己監督型学習のための効率的な視覚変換器の開発
- Authors: Utku Mert Topcuoglu, Erdem Akag\"und\"uz
- Abstract要約: 視覚変換器(ViT)のための自己教師型学習への革新的アプローチを提案する。
本手法は, ViTにおける初期層トレーニングの効率化と高速化に重点を置いている。
提案手法は,初期層における効率的な学習を促進する,新しいマルチスケール再構築プロセスを採用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we present an innovative approach to self-supervised learning
for Vision Transformers (ViTs), integrating local masked image modeling with
progressive layer freezing. This method focuses on enhancing the efficiency and
speed of initial layer training in ViTs. By systematically freezing specific
layers at strategic points during training, we reduce computational demands
while maintaining or improving learning capabilities. Our approach employs a
novel multi-scale reconstruction process that fosters efficient learning in
initial layers and enhances semantic comprehension across scales. The results
demonstrate a substantial reduction in training time (~12.5\%) with a minimal
impact on model accuracy (decrease in top-1 accuracy by 0.6\%). Our method
achieves top-1 and top-5 accuracies of 82.6\% and 96.2\%, respectively,
underscoring its potential in scenarios where computational resources and time
are critical. This work marks an advancement in the field of self-supervised
learning for computer vision. The implementation of our approach is available
at our project's GitHub repository: github.com/utkutpcgl/ViTFreeze.
- Abstract(参考訳): 本稿では,視覚変換器(ViT)の自己教師型学習に革新的なアプローチを提案し,局所マスク画像モデリングとプログレッシブ層凍結を統合した。
本手法はvitsにおける初期層トレーニングの効率と高速化に重点を置いている。
訓練中に特定の層を戦略的に凍結することにより、学習能力を維持したり改善したりしながら、計算要求を減らすことができる。
提案手法では,初期層における学習の効率化と,規模を越えた意味理解の向上を図った。
その結果、トレーニング時間(~12.5\%)が大幅に減少し、モデルの精度が最小限に抑えられた(トップ1の精度は0.6\%)。
本手法は, 計算資源と時間に重要なシナリオにおいて, それぞれ82.6\%, 96.2\%のTop-1およびTop-5の精度を実現する。
この研究は、コンピュータビジョンのための自己教師型学習の分野における進歩を示す。
このアプローチの実装は、プロジェクトのGitHubリポジトリ、github.com/utkutpcgl/ViTFreezeで利用可能です。
関連論文リスト
- An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Reduction of Class Activation Uncertainty with Background Information [0.0]
マルチタスク学習は、一般化を改善したハイパフォーマンスニューラルネットワークをトレーニングするための一般的なアプローチである。
マルチタスク学習と比較して,より低い計算量での一般化を実現するためのバックグラウンドクラスを提案する。
本稿では,背景画像の選択手法を提案し,今後の改善について論じる。
論文 参考訳(メタデータ) (2023-05-05T01:40:00Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Training a Vision Transformer from scratch in less than 24 hours with 1
GPU [10.517362955718799]
限られたハードウェア(1GPU)と時間(24時間)のリソースで、スクラッチからViTモデルをトレーニングできるアルゴリズムの改良をいくつか導入する。
学習開始時に各画像から抽出したパッチ数を削減できる新しい画像サイズカリキュラム学習戦略を開発する。
最後に、ハードウェアと時間制約を追加することで、人気のあるImageNet1kベンチマークの新たな変種を提案する。
論文 参考訳(メタデータ) (2022-11-09T20:36:46Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Automated Progressive Learning for Efficient Training of Vision
Transformers [125.22744987949227]
ビジョントランスフォーマー(ViT)は、コンピュータパワーに対する大胆な欲求を持ち、ViTの効率的なトレーニング方法を開発するために緊急に必要となる。
プログレッシブラーニング(Progressive Learning)は、モデルキャパシティがトレーニング中に徐々に成長するトレーニングスキームである。
本稿では,先進的な学習をカスタマイズし,自動化することで,ViTの効率的な訓練に向けて実践的な一歩を踏み出した。
論文 参考訳(メタデータ) (2022-03-28T05:37:08Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。