論文の概要: Continual Learning with Transformers for Image Classification
- arxiv url: http://arxiv.org/abs/2206.14085v1
- Date: Tue, 28 Jun 2022 15:30:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 19:07:11.174991
- Title: Continual Learning with Transformers for Image Classification
- Title(参考訳): 画像分類のための変換器による連続学習
- Authors: Beyza Ermis, Giovanni Zappella, Martin Wistuba, Aditya Rawal, Cedric
Archambeau
- Abstract要約: コンピュータビジョンでは、ニューラルネットワークモデルは、過去に何を学んだかを忘れずに、新しい概念を継続的に学習する。
本研究では,適応型適応器の蒸留法 (ADA) を開発した。
本手法は,モデルを再学習することなく,優れた予測性能を維持することを実証的に示す。
- 参考スコア(独自算出の注目度): 12.028617058465333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many real-world scenarios, data to train machine learning models become
available over time. However, neural network models struggle to continually
learn new concepts without forgetting what has been learnt in the past. This
phenomenon is known as catastrophic forgetting and it is often difficult to
prevent due to practical constraints, such as the amount of data that can be
stored or the limited computation sources that can be used. Moreover, training
large neural networks, such as Transformers, from scratch is very costly and
requires a vast amount of training data, which might not be available in the
application domain of interest. A recent trend indicates that dynamic
architectures based on an expansion of the parameters can reduce catastrophic
forgetting efficiently in continual learning, but this needs complex tuning to
balance the growing number of parameters and barely share any information
across tasks. As a result, they struggle to scale to a large number of tasks
without significant overhead. In this paper, we validate in the computer vision
domain a recent solution called Adaptive Distillation of Adapters (ADA), which
is developed to perform continual learning using pre-trained Transformers and
Adapters on text classification tasks. We empirically demonstrate on different
classification tasks that this method maintains a good predictive performance
without retraining the model or increasing the number of model parameters over
the time. Besides it is significantly faster at inference time compared to the
state-of-the-art methods.
- Abstract(参考訳): 多くの現実世界のシナリオでは、機械学習モデルをトレーニングするデータが時間とともに利用可能になる。
しかし、ニューラルネットワークモデルは、過去に学んだことを忘れずに、新しい概念を継続的に学習する。
この現象は破滅的な忘れ物として知られており、保存できるデータの量や使用可能な限られた計算源など、現実的な制約のために予防することがしばしば困難である。
さらに、トランスフォーマーのような大規模なニューラルネットワークをスクラッチからトレーニングするのは非常にコストがかかり、大量のトレーニングデータを必要とする。
最近の傾向は、パラメータの拡張に基づく動的アーキテクチャは、継続的な学習において破滅的な忘れを効率的に減らすことができることを示しているが、これは、パラメータの増大とタスク間の情報の共有がほとんどない複雑なチューニングを必要とする。
その結果、大きなオーバーヘッドを伴わずに、大量のタスクにスケールするのに苦労した。
本稿では,コンピュータビジョン領域において,事前学習されたトランスフォーマーとアダプタを用いてテキスト分類タスクを連続学習するために開発された適応蒸留アダプタ(ada)と呼ばれる最近のソリューションを検証する。
本手法はモデルの再学習や時間とともにモデルパラメータの数を増やすことなく,優れた予測性能を維持することを実証的に示す。
さらに、推論時間が最先端のメソッドよりも大幅に高速である。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Premonition: Using Generative Models to Preempt Future Data Changes in
Continual Learning [63.850451635362425]
継続的な学習には、データ分散の継続的な変化に対応するためのモデルが必要である。
本稿では,大規模言語モデルと画像生成モデルの組み合わせが有用であることを示す。
トレーニング済みネットワークのバックボーンは、下流の連続学習問題に有用な表現を学習できることがわかった。
論文 参考訳(メタデータ) (2024-03-12T06:29:54Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Task Arithmetic with LoRA for Continual Learning [0.0]
低ランク適応とタスク算術を用いて視覚モデルを継続的に訓練する新しい手法を提案する。
クラス毎に10個のサンプルを小さなメモリで支援すると,本手法はフルセットファインタニングに近い性能が得られる。
論文 参考訳(メタデータ) (2023-11-04T15:12:24Z) - PIVOT: Prompting for Video Continual Learning [50.80141083993668]
PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法である。
実験の結果,PIVOTは20タスクのアクティビティネット設定において,最先端の手法を27%向上することがわかった。
論文 参考訳(メタデータ) (2022-12-09T13:22:27Z) - Cooperative data-driven modeling [44.99833362998488]
メカニクスにおけるデータ駆動モデリングは、最近の機械学習の進歩に基づいて急速に進化している。
異なるグループによって作成された新しいデータとモデルが利用可能となり、協調モデリングの可能性が開ける。
人工ニューラルネットワークは、破滅的な忘れ、すなわち、新しいタスクでトレーニングされたときに古いタスクを実行する方法を忘れることに苦しむ。
これは、新しいタスクに既存のモデルを適用することが、誰かによって訓練された前のタスクのパフォーマンスに影響を与えるため、協力を妨げる。
論文 参考訳(メタデータ) (2022-11-23T14:27:25Z) - Improving generalization with synthetic training data for deep learning
based quality inspection [0.0]
教師付きディープラーニングは、トレーニングのために大量の注釈付きイメージを必要とする。
実際には、そのようなデータの収集と注釈付けは費用がかかり、手間がかかる。
ランダムに生成した合成訓練画像を用いることで、領域不安定性に対処できることを示す。
論文 参考訳(メタデータ) (2022-02-25T16:51:01Z) - Deep invariant networks with differentiable augmentation layers [87.22033101185201]
データ拡張ポリシーの学習方法は、保持データを必要とし、二段階最適化の問題に基づいている。
我々のアプローチは、現代の自動データ拡張技術よりも訓練が簡単で高速であることを示す。
論文 参考訳(メタデータ) (2022-02-04T14:12:31Z) - Lambda Learner: Fast Incremental Learning on Data Streams [5.543723668681475]
本稿では,データストリームからのミニバッチに対するインクリメンタル更新によるモデルトレーニングのための新しいフレームワークを提案する。
提案するフレームワークのモデルでは,オフラインデータに基づいてトレーニングされた周期的に更新されたモデルを推定し,モデル更新が時間に敏感な場合,性能が向上することを示す。
我々は、大規模ソーシャルネットワークのためのスポンサー付きコンテンツプラットフォームに大規模な展開を提示する。
論文 参考訳(メタデータ) (2020-10-11T04:00:34Z) - Learning to Transfer Dynamic Models of Underactuated Soft Robotic Hands [15.481728234509227]
転送学習は、別のドメインのデータを活用することによって、あるドメインのデータ制限をバイパスする一般的なアプローチである。
いくつかの状況では、これは単に適応なしで変換されたモデルを使用するよりも、はるかにパフォーマンスが悪くなることを示します。
我々は、訓練された遷移モデルのリャプノフ指数の上界を導出し、この知見を利用する2つのアプローチを実証する。
論文 参考訳(メタデータ) (2020-05-21T01:46:59Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。