論文の概要: Foundational Models for Continual Learning: An Empirical Study of Latent
Replay
- arxiv url: http://arxiv.org/abs/2205.00329v1
- Date: Sat, 30 Apr 2022 19:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 13:19:51.662934
- Title: Foundational Models for Continual Learning: An Empirical Study of Latent
Replay
- Title(参考訳): 連続学習のための基礎モデル--潜在リプレイの実証的研究
- Authors: Oleksiy Ostapenko, Timothee Lesort, Pau Rodr\'iguez, Md Rifat Arefin,
Arthur Douillard, Irina Rish, Laurent Charlin
- Abstract要約: 本稿では,下流の連続学習シナリオの基礎として,事前学習型視覚モデルの有効性について検討する。
大規模ベンチマークシナリオにおける各種事前学習モデルの有効性を,潜時および生データ空間におけるバニラ再生設定と比較した。
- 参考スコア(独自算出の注目度): 17.322679682451597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid development of large-scale pre-training has resulted in foundation
models that can act as effective feature extractors on a variety of downstream
tasks and domains. Motivated by this, we study the efficacy of pre-trained
vision models as a foundation for downstream continual learning (CL) scenarios.
Our goal is twofold. First, we want to understand the compute-accuracy
trade-off between CL in the raw-data space and in the latent space of
pre-trained encoders. Second, we investigate how the characteristics of the
encoder, the pre-training algorithm and data, as well as of the resulting
latent space affect CL performance. For this, we compare the efficacy of
various pre-trained models in large-scale benchmarking scenarios with a vanilla
replay setting applied in the latent and in the raw-data space. Notably, this
study shows how transfer, forgetting, task similarity and learning are
dependent on the input data characteristics and not necessarily on the CL
algorithms. First, we show that under some circumstances reasonable CL
performance can readily be achieved with a non-parametric classifier at
negligible compute. We then show how models pre-trained on broader data result
in better performance for various replay sizes. We explain this with
representational similarity and transfer properties of these representations.
Finally, we show the effectiveness of self-supervised pre-training for
downstream domains that are out-of-distribution as compared to the pre-training
domain. We point out and validate several research directions that can further
increase the efficacy of latent CL including representation ensembling. The
diverse set of datasets used in this study can serve as a compute-efficient
playground for further CL research. The codebase is available under
https://github.com/oleksost/latent_CL.
- Abstract(参考訳): 大規模プレトレーニングの迅速な開発は、様々な下流タスクやドメインにおいて効果的な特徴抽出器として機能する基盤モデルをもたらす。
そこで我々は,下流連続学習(CL)の基盤として,事前学習型視覚モデルの有効性について検討した。
私たちの目標は2倍です。
まず、生データ空間におけるCLと事前学習エンコーダの潜在空間における計算精度のトレードオフを理解したい。
第2に,エンコーダの特性,事前学習アルゴリズム,データ,結果の潜在空間がcl性能に与える影響について検討する。
そこで本研究では,大規模ベンチマークシナリオにおける事前学習モデルの有効性を,潜時および生データ空間におけるバニラ再生設定と比較する。
特に本研究は,clアルゴリズムに必ずしも依存しない入力データ特性に,転送,忘れる,タスクの類似性,学習がどのように依存しているかを示す。
まず、ある状況下では、非パラメトリック分類器でCL性能が容易に実現できることを示す。
次に、より広いデータで事前トレーニングされたモデルが、様々なリプレイサイズのパフォーマンスを改善する方法を示す。
これらの表現の表現的類似性と伝達特性でこれを説明する。
最後に,事前学習領域と比較して,配信外である下流領域に対する自己指導型事前学習の有効性を示す。
我々は,表現のアンサンブルを含む潜在CLの有効性をさらに高めるいくつかの研究方向を指摘し,検証した。
この研究で使用される多様なデータセットは、さらなるCL研究のための計算効率の高い遊び場として機能する。
コードベースはhttps://github.com/oleksost/latent_clで利用可能である。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - AD-PT: Autonomous Driving Pre-Training with Large-scale Point Cloud
Dataset [25.935496432142976]
知覚モデルが大規模なクラウドデータセットから学ぶことは、Autonomous Driving (AD)コミュニティの長期的なビジョンである。
我々は、ポイントクラウド事前トレーニングタスクを半教師付き問題として定式化し、少数のラベル付きおよび大規模ラベルなしのポイントクラウドデータを活用する。
我々は、異なるベースラインモデルの下で、nuScenesやKITTIを含む一連の下流認識ベンチマークにおいて、大幅な性能向上を達成する。
論文 参考訳(メタデータ) (2023-06-01T12:32:52Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - Do Pre-trained Models Benefit Equally in Continual Learning? [25.959813589169176]
既存の継続学習(CL)の研究は主に、ゼロから訓練されたモデルのアルゴリズムの開発に費やされている。
コントリビュートベンチマークのパフォーマンスは高いが、これらのアルゴリズムは現実のシナリオで劇的なパフォーマンス低下を示す。
本稿では,CLに対する事前学習の体系的導入を提唱する。
論文 参考訳(メタデータ) (2022-10-27T18:03:37Z) - Learning Deep Representations via Contrastive Learning for Instance
Retrieval [11.736450745549792]
本稿では、インスタンス識別に基づくコントラスト学習(CL)を用いて、この問題に取り組むための最初の試みを行う。
本研究では、事前学習されたCLモデルと微調整されたCLモデルから識別表現を導出する能力を探求することにより、この問題に対処する。
論文 参考訳(メタデータ) (2022-09-28T04:36:34Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。