論文の概要: Parameter Efficient Fine-tuning of Self-supervised ViTs without Catastrophic Forgetting
- arxiv url: http://arxiv.org/abs/2404.17245v2
- Date: Fri, 5 Jul 2024 03:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 23:14:17.291632
- Title: Parameter Efficient Fine-tuning of Self-supervised ViTs without Catastrophic Forgetting
- Title(参考訳): カタストロフィック形成を伴わない自己監督型ビタミンVTの高精度微調整
- Authors: Reza Akbarian Bafghi, Nidhin Harilal, Claire Monteleoni, Maziar Raissi,
- Abstract要約: 新しいタスクの事前訓練と微調整は、モデルの本来の汎用能力を著しく低下させる可能性がある。
この安定性-塑性ジレンマを克服することは、ViTsが継続的に学習し、新しいドメインに適応するために重要である。
実験の結果,自己学習型VTではブロック拡張あるいはLORAが,新しいドメインの完全な微調整型VTを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 0.5249805590164901
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Artificial neural networks often suffer from catastrophic forgetting, where learning new concepts leads to a complete loss of previously acquired knowledge. We observe that this issue is particularly magnified in vision transformers (ViTs), where post-pre-training and fine-tuning on new tasks can significantly degrade the model's original general abilities. For instance, a DINO ViT-Base/16 pre-trained on ImageNet-1k loses over 70% accuracy on ImageNet-1k after just 10 iterations of fine-tuning on CIFAR-100. Overcoming this stability-plasticity dilemma is crucial for enabling ViTs to continuously learn and adapt to new domains while preserving their initial knowledge. In this work, we study two new parameter-efficient fine-tuning strategies: (1)~Block Expansion, and (2) Low-rank adaptation (LoRA). Our experiments reveal that using either Block Expansion or LoRA on self-supervised pre-trained ViTs surpass fully fine-tuned ViTs in new domains while offering significantly greater parameter efficiency. Notably, we find that Block Expansion experiences only a minimal performance drop in the pre-training domain, thereby effectively mitigating catastrophic forgetting in pre-trained ViTs.
- Abstract(参考訳): 人工ニューラルネットワークは、しばしば破滅的な忘れ込みに悩まされ、そこで新しい概念を学ぶことで、以前に獲得した知識が完全に失われる。
特に視覚変換器(ViT)では,新しいタスクの事前学習や微調整により,モデルの本来の汎用能力を著しく低下させる可能性がある。
例えば、ImageNet-1kで事前トレーニングされたDINO ViT-Base/16は、CIFAR-100で10回の微調整を行っただけで、ImageNet-1kで70%以上の精度を失う。
この安定性-塑性ジレンマを克服することは、ViTが初期知識を維持しながら、新しいドメインを継続的に学習し、適応できるようにするために重要である。
本研究では,(1)〜ブロック展開と(2)ローランク適応(LoRA)という,パラメータ効率のよい2つの新しい微調整戦略について検討する。
実験の結果,自己指導型VTではブロック拡張あるいはLoRAが完全に調整されたVTを超越し,パラメータ効率は大幅に向上した。
特に、Block Expansionはトレーニング済みのドメインで最小のパフォーマンス低下しか経験せず、これにより、トレーニング済みのViTにおける破滅的な忘れを効果的に軽減できることがわかった。
関連論文リスト
- ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts [52.1635661239108]
本稿では,事前学習された視覚変換器(ViT)のドメインシフト下での伝達学習を改善するために,ExPLoRAを提案する。
我々の実験は、衛星画像の最先端の成果を実証し、完全な事前学習や微調整のViTよりも優れています。
論文 参考訳(メタデータ) (2024-06-16T15:14:56Z) - Pre-trained Vision and Language Transformers Are Few-Shot Incremental Learners [19.579098962615795]
FSCIL(Few-Shot Class Incremental Learning)は、クラスごとにいくつかのサンプルしか与えられていないことを忘れずに、新しいクラスを漸進的に学習するモデルを必要とするタスクである。
FSCILは2つの大きな課題に直面している。
大規模なデータセットで事前訓練された視覚や言語変換器のような大規模モデルは、数発のインクリメンタル学習者には優れていると我々は主張する。
論文 参考訳(メタデータ) (2024-04-02T17:23:22Z) - Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Bootstrapping ViTs: Towards Liberating Vision Transformers from
Pre-training [29.20567759071523]
ビジョントランスフォーマー(ViT)は急速に発展し、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の支配に挑戦し始めている。
本稿では,上位境界のネットワークアーキテクチャを保ちながら,CNNのインダクティブバイアスをViTに戻す。
CIFAR-10/100 と ImageNet-1k の限られたトレーニングデータによる実験は、有望な結果を示している。
論文 参考訳(メタデータ) (2021-12-07T07:56:50Z) - Chasing Sparsity in Vision Transformers: An End-to-End Exploration [127.10054032751714]
ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。
本稿では、達成可能な精度を犠牲にすることなく、トレーニングメモリのオーバーヘッドと推論の複雑さの両方を削減することを目的とする。
具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算に固執しながら、スパースワークを動的に抽出し、訓練する。
論文 参考訳(メタデータ) (2021-06-08T17:18:00Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。