論文の概要: An Empirical Investigation of the Role of Pre-training in Lifelong
Learning
- arxiv url: http://arxiv.org/abs/2112.09153v2
- Date: Tue, 29 Aug 2023 17:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 19:27:33.882236
- Title: An Empirical Investigation of the Role of Pre-training in Lifelong
Learning
- Title(参考訳): 生涯学習における事前学習の役割に関する実証的研究
- Authors: Sanket Vaibhav Mehta, Darshan Patil, Sarath Chandar, Emma Strubell
- Abstract要約: 複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
- 参考スコア(独自算出の注目度): 21.995593026269578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lifelong learning paradigm in machine learning is an attractive
alternative to the more prominent isolated learning scheme not only due to its
resemblance to biological learning but also its potential to reduce energy
waste by obviating excessive model re-training. A key challenge to this
paradigm is the phenomenon of catastrophic forgetting. With the increasing
popularity and success of pre-trained models in machine learning, we pose the
question: What role does pre-training play in lifelong learning, specifically
with respect to catastrophic forgetting? We investigate existing methods in the
context of large, pre-trained models and evaluate their performance on a
variety of text and image classification tasks, including a large-scale study
using a novel data set of 15 diverse NLP tasks. Across all settings, we observe
that generic pre-training implicitly alleviates the effects of catastrophic
forgetting when learning multiple tasks sequentially compared to randomly
initialized models. We then further investigate why pre-training alleviates
forgetting in this setting. We study this phenomenon by analyzing the loss
landscape, finding that pre-trained weights appear to ease forgetting by
leading to wider minima. Based on this insight, we propose jointly optimizing
for current task loss and loss basin sharpness to explicitly encourage wider
basins during sequential fine-tuning. We show that this optimization approach
outperforms several state-of-the-art task-sequential continual learning
algorithms across multiple settings, occasionally even without retaining a
memory that scales in size with the number of tasks.
- Abstract(参考訳): 機械学習における生涯学習パラダイムは、生物学的学習に類似しているだけでなく、過剰なモデル再訓練を回避してエネルギー無駄を減らす可能性から、より顕著な孤立学習スキームに代わる魅力的な選択肢である。
このパラダイムの重要な課題は、破滅的な忘れの現象である。
機械学習における事前学習モデルの人気と成功が高まり、私たちは疑問を呈する: 生涯学習において、特に破滅的な忘れ物に関して、事前学習はどのような役割を果たすのか?
15種類のNLPタスクからなる新しいデータセットを用いた大規模研究を含む,大規模で事前学習されたモデルのコンテキストにおける既存手法の検討と,各種テキストおよび画像分類タスクの性能評価を行う。
すべての設定において、ランダムに初期化モデルと比較して、複数のタスクを逐次学習する場合、一般的な事前学習は破滅的忘れの影響を暗黙的に軽減する。
この設定で、事前学習が忘れることを緩和する理由をさらに調査する。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
この知見に基づき, 逐次微調整中に広い流域を明示的に促すため, 現在のタスク損失と損失盆地のシャープネスを共同で最適化する手法を提案する。
この最適化手法は,タスク数に応じてスケールするメモリを保持せずとも,複数の設定をまたいで,最先端のタスク系列連続学習アルゴリズムに勝ることを示す。
関連論文リスト
- An Efficient Replay for Class-Incremental Learning with Pre-trained Models [0.0]
授業増分学習では,各クラス中心で案内される重み間の定常状態が破壊され,忘れることと大きく相関する。
忘れを克服する新しい方法を提案する。
論文 参考訳(メタデータ) (2024-08-15T11:26:28Z) - Task Arithmetic with LoRA for Continual Learning [0.0]
低ランク適応とタスク算術を用いて視覚モデルを継続的に訓練する新しい手法を提案する。
クラス毎に10個のサンプルを小さなメモリで支援すると,本手法はフルセットファインタニングに近い性能が得られる。
論文 参考訳(メタデータ) (2023-11-04T15:12:24Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Continual Learning with Pretrained Backbones by Tuning in the Input
Space [44.97953547553997]
ディープラーニングモデルを非定常環境に適用することの本質的な困難さは、ニューラルネットワークの実際のタスクへの適用性を制限している。
ネットワークの事前学習部分の更新を回避し、通常の分類ヘッドだけでなく、新たに導入した学習可能なパラメータのセットも学習することで、微調整手順をより効果的にするための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-06-05T15:11:59Z) - PIVOT: Prompting for Video Continual Learning [50.80141083993668]
PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法である。
実験の結果,PIVOTは20タスクのアクティビティネット設定において,最先端の手法を27%向上することがわかった。
論文 参考訳(メタデータ) (2022-12-09T13:22:27Z) - Continual Predictive Learning from Videos [100.27176974654559]
本稿では,ビデオ予測の文脈において,新たな連続学習問題について検討する。
本稿では,連続予測学習(Continuousal predictive Learning, CPL)アプローチを提案する。
我々はRoboNetとKTHに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理ロボット環境や人間の行動に対応するようにした。
論文 参考訳(メタデータ) (2022-04-12T08:32:26Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - Understanding the Role of Training Regimes in Continual Learning [51.32945003239048]
破滅的な忘れは、ニューラルネットワークのトレーニングに影響を与え、複数のタスクを逐次学習する能力を制限する。
本研究では,タスクの局所的なミニマを拡大するトレーニング体制の形成に及ぼすドロップアウト,学習速度の低下,バッチサイズの影響について検討した。
論文 参考訳(メタデータ) (2020-06-12T06:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。