論文の概要: Does Continual Learning Equally Forget All Parameters?
- arxiv url: http://arxiv.org/abs/2304.04158v1
- Date: Sun, 9 Apr 2023 04:36:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 17:18:43.341883
- Title: Does Continual Learning Equally Forget All Parameters?
- Title(参考訳): 連続学習は全てのパラメータを等しく禁ずるか?
- Authors: Haiyan Zhao, Tianyi Zhou, Guodong Long, Jing Jiang, Chengqi Zhang
- Abstract要約: 連続学習(CL)における分散シフト(タスクやドメインシフトなど)は通常、ニューラルネットワークを壊滅的に忘れてしまう。
ニューラルネットワークのどのモジュールが、CL中のトレーニングダイナミクスを調査することによって忘れやすいかを検討する。
CL中に周期的にトリガされるFPFの1段階ごとのリプレイを完全に取り除き,わずか$k$で置き換える,より効率的でシンプルな手法を提案する。
- 参考スコア(独自算出の注目度): 55.431048995662714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distribution shift (e.g., task or domain shift) in continual learning (CL)
usually results in catastrophic forgetting of neural networks. Although it can
be alleviated by repeatedly replaying buffered data, the every-step replay is
time-consuming. In this paper, we study which modules in neural networks are
more prone to forgetting by investigating their training dynamics during CL.
Our proposed metrics show that only a few modules are more task-specific and
sensitively alter between tasks, while others can be shared across tasks as
common knowledge. Hence, we attribute forgetting mainly to the former and find
that finetuning them only on a small buffer at the end of any CL method can
bring non-trivial improvement. Due to the small number of finetuned parameters,
such ``Forgetting Prioritized Finetuning (FPF)'' is efficient in computation.
We further propose a more efficient and simpler method that entirely removes
the every-step replay and replaces them by only $k$-times of FPF periodically
triggered during CL. Surprisingly, this ``$k$-FPF'' performs comparably to FPF
and outperforms the SOTA CL methods but significantly reduces their
computational overhead and cost. In experiments on several benchmarks of class-
and domain-incremental CL, FPF consistently improves existing CL methods by a
large margin, and $k$-FPF further excels in efficiency without degrading the
accuracy. We also empirically studied the impact of buffer size, epochs per
task, and finetuning modules on the cost and accuracy of our methods.
- Abstract(参考訳): 連続学習(CL)における分散シフト(タスクやドメインシフトなど)は通常、ニューラルネットワークを壊滅的に忘れてしまう。
バッファデータを繰り返し再生することで緩和できるが、各ステップの再生には時間がかかる。
本稿では,ニューラルネットワークのどのモジュールが,CL中のトレーニングダイナミクスを調査することによって,忘れやすいかを検討する。
提案するメトリクスでは,タスクごとに微妙な変更を行うモジュールはごくわずかですが,共通知識としてタスク間で共有できるモジュールはごくわずかです。
したがって、主に前者のことを忘れているため、CLメソッドの終端にある小さなバッファにのみ微調整することで、非自明な改善がもたらされる。
微調整パラメータが少ないため、計算では ``Forgetting Prioritized Finetuning (FPF)' が効率的である。
さらに,全ステップのリプレイを完全に削除し,CL中に定期的にトリガされるFPFの$k$-timeで置き換える,より効率的でシンプルな手法を提案する。
驚いたことに、この ``$k$-FPF'' は FPF と互換性があり、SOTA CL 法より優れているが、計算オーバーヘッドとコストを大幅に削減する。
クラスおよびドメインインクリメンタルCLのいくつかのベンチマークの実験では、FPFは既存のCLメソッドを大きなマージンで一貫して改善し、$k$-FPFは精度を劣化させることなく効率をさらに向上させる。
また,バッファサイズ,タスク毎のエポック,モジュールの微調整が手法のコストと精度に与える影響を実証的に検討した。
関連論文リスト
- CFSP: An Efficient Structured Pruning Framework for LLMs with Coarse-to-Fine Activation Information [33.01180010689081]
CFSPと呼ばれる効率的な構造化プルーニングフレームワークを提案する。
まず、その重要度に基づいて各ブロックに分散予算を割り当て、その後、各ブロックに重要な重みを保持する。
その結果,CFSP は様々な予算にまたがる様々なモデルにおいて,既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-20T04:03:27Z) - FeDeRA:Efficient Fine-tuning of Language Models in Federated Learning Leveraging Weight Decomposition [7.229494183462913]
微調整後の例外的なパフォーマンスにもかかわらず、プレトレーニング言語モデル(PLM)はプライバシー上の懸念から重大な課題に直面している。
本論文では,フェデレートラーニング(FL)を微調整PLMとみなす。
1つの有望な解決策はパラメータ効率細調整(PEFT)をFLに活用することであり、完全なパラメータ細調整(FFT)よりもはるかに小さなパラメータセットを訓練する。
論文 参考訳(メタデータ) (2024-04-29T16:42:26Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Computationally Budgeted Continual Learning: What Does Matter? [128.0827987414154]
CL (Continuous Learning) は、新しいデータに適応しながら、以前の知識を保存し、分布の異なる入力データのストリーム上でモデルを逐次訓練することを目的としている。
現在のCL文献では、以前のデータへのアクセス制限に焦点が当てられているが、トレーニングの計算予算に制約は課されていない。
本稿では,この問題を大規模ベンチマークで再検討し,計算制約条件下での従来のCL手法の性能解析を行う。
論文 参考訳(メタデータ) (2023-03-20T14:50:27Z) - Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - [Reproducibility Report] Rigging the Lottery: Making All Tickets Winners [1.6884611234933766]
スパーストレーニングアルゴリズムである$textitRigL$は、既存の密集型トレーニング技術のパフォーマンスに適合または超過したスパースネットワークを直接トレーニングする、と主張している。
Pytorchのスクラッチから$textitRigL$を実装し、報告された値の0.1%以内でCIFAR-10のパフォーマンスを再現する。
論文 参考訳(メタデータ) (2021-03-29T17:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。