論文の概要: On the Effectiveness of LayerNorm Tuning for Continual Learning in
Vision Transformers
- arxiv url: http://arxiv.org/abs/2308.09610v1
- Date: Fri, 18 Aug 2023 15:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:35:26.143520
- Title: On the Effectiveness of LayerNorm Tuning for Continual Learning in
Vision Transformers
- Title(参考訳): 視覚トランスフォーマの連続学習におけるレイヤノルムチューニングの有効性について
- Authors: Thomas De Min, Massimiliano Mancini, Karteek Alahari, Xavier
Alameda-Pineda, Elisa Ricci
- Abstract要約: 最新のリハーサルなし連続学習手法は、視覚変換器の特異性を利用してタスク固有のプロンプトを学習する。
そこで、まずタスク固有のパラメータを最適化し、次に推論時間の同じ選択手順で分類器を訓練する。
提案手法は, 計算コストを抑えながら, より優れた結果が得られるか, あるいは, 技術水準に匹敵する結果が得られる。
- 参考スコア(独自算出の注目度): 47.77328392236625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art rehearsal-free continual learning methods exploit the
peculiarities of Vision Transformers to learn task-specific prompts,
drastically reducing catastrophic forgetting. However, there is a tradeoff
between the number of learned parameters and the performance, making such
models computationally expensive. In this work, we aim to reduce this cost
while maintaining competitive performance. We achieve this by revisiting and
extending a simple transfer learning idea: learning task-specific normalization
layers. Specifically, we tune the scale and bias parameters of LayerNorm for
each continual learning task, selecting them at inference time based on the
similarity between task-specific keys and the output of the pre-trained model.
To make the classifier robust to incorrect selection of parameters during
inference, we introduce a two-stage training procedure, where we first optimize
the task-specific parameters and then train the classifier with the same
selection procedure of the inference time. Experiments on ImageNet-R and
CIFAR-100 show that our method achieves results that are either superior or on
par with {the state of the art} while being computationally cheaper.
- Abstract(参考訳): 最先端のリハーサルなし連続学習手法は、視覚変換器の特徴を利用してタスク固有のプロンプトを学習し、破滅的な忘れを劇的に減らす。
しかし、学習パラメータの数と性能の間にはトレードオフがあり、そのようなモデルは計算コストがかかる。
本研究では,競争性能を維持しつつ,コスト削減を図る。
タスク固有の正規化レイヤの学習という,単純な転帰学習の考え方を再考し,拡張することで,これを実現する。
具体的には,逐次学習タスク毎にレイヤノルムのスケールパラメータとバイアスパラメータをチューニングし,タスク固有のキーと事前学習モデルの出力との類似性に基づいて推論時間に選択する。
推論中にパラメータの選択を誤ったものにするために、まずタスク固有のパラメータを最適化し、次に推論時間の同じ選択手順で分類器を訓練する2段階の訓練手順を導入する。
imagenet-r と cifar-100 の実験では、計算量的に安価でありながら、より優れているか、あるいは『the state of the art』に匹敵する結果が得られることを示した。
関連論文リスト
- Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - ScaLearn: Simple and Highly Parameter-Efficient Task Transfer by
Learning to Scale [19.737036958820134]
MTL (Multi-task Learning) は、非常に実用的な利点を示している。
AdapterFusionのような最近の手法は、問題を2つの異なる段階に構造化する。
ScaLearnは単純かつパラメータ効率の高い2段階MTL法である。
論文 参考訳(メタデータ) (2023-10-02T14:01:36Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Learning to Prompt for Continual Learning [34.609384246149325]
本研究は,テスト時にタスクの同一性にアクセスすることなく,より簡潔なメモリシステムのトレーニングを目的とした,連続学習のための新しいパラダイムを提案する。
本手法は,タスク遷移の異なるタスクを逐次学習するための事前学習モデル(L2P)を動的に学習する。
目的は、モデル予測を指示するプロンプトを最適化し、モデル可塑性を維持しながら、タスク不変およびタスク固有知識を明示的に管理することである。
論文 参考訳(メタデータ) (2021-12-16T06:17:07Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z) - Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。
提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。