論文の概要: Soup to go: mitigating forgetting during continual learning with model averaging
- arxiv url: http://arxiv.org/abs/2501.05559v1
- Date: Thu, 09 Jan 2025 20:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:15.508261
- Title: Soup to go: mitigating forgetting during continual learning with model averaging
- Title(参考訳): Soup to Go:モデル平均化による連続学習における忘れの軽減
- Authors: Anat Kleiman, Gintare Karolina Dziugaite, Jonathan Frankle, Sham Kakade, Mansheej Paul,
- Abstract要約: 継続的な学習では、後続のタスクを微調整すると、しばしば以前のタスクのパフォーマンスが低下する。
他のマージ手法やL2-regressionにインスパイアされた逐次微調整(Sequential Fine-tuning with Averaging,SFA)を提案する。
我々の手法は過去のデータを保存しなくても同等の結果が得られる。
そこで本手法は,画像領域と言語領域をまたいだ学習において,部分学習モデルを統合する利点について考察する。
- 参考スコア(独自算出の注目度): 24.3125190049867
- License:
- Abstract: In continual learning, where task data arrives in a sequence, fine-tuning on later tasks will often lead to performance degradation on earlier tasks. This is especially pronounced when these tasks come from diverse domains. In this setting, how can we mitigate catastrophic forgetting of earlier tasks and retain what the model has learned with minimal computational expenses? Inspired by other merging methods, and L2-regression, we propose Sequential Fine-tuning with Averaging (SFA), a method that merges currently training models with earlier checkpoints during the course of training. SOTA approaches typically maintain a data buffer of past tasks or impose a penalty at each gradient step. In contrast, our method achieves comparable results without the need to store past data, or multiple copies of parameters for each gradient step. Furthermore, our method outperforms common merging techniques such as Task Arithmetic, TIES Merging, and WiSE-FT, as well as other penalty methods like L2 and Elastic Weight Consolidation. In turn, our method offers insight into the benefits of merging partially-trained models during training across both image and language domains.
- Abstract(参考訳): タスクデータが連続的に到着する連続学習では、後続のタスクを微調整すると、しばしば以前のタスクのパフォーマンスが低下する。
これは、これらのタスクが様々なドメインから来ているときに特に顕著である。
この設定では、以前のタスクの破滅的な忘れを緩和し、最小の計算コストでモデルが学んだことを維持するにはどうすればよいのか?
他のマージ手法やL2-regressionにインスパイアされ、トレーニング中に既存のチェックポイントとモデルをマージするSFA(Sequential Fine-tuning with Averaging)を提案する。
SOTAアプローチは通常、過去のタスクのデータバッファを保持したり、各勾配ステップでペナルティを課す。
対照的に,本手法は過去のデータを格納する必要がなく,また,各勾配ステップのパラメータを複数コピーする必要がない。
さらに,タスク算術,TIESマージ,WiSE-FTなどの一般的なマージ手法,L2やElastic Weight Consolidationなどのペナルティ手法よりも優れる。
そこで本手法は,画像領域と言語領域をまたいだ学習において,部分学習モデルを統合する利点について考察する。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - An Effective Dynamic Gradient Calibration Method for Continual Learning [11.555822066922508]
継続的学習(CL)は機械学習の基本的なトピックであり、目標は連続的なデータとタスクでモデルをトレーニングすることだ。
メモリ制限のため、すべての履歴データを保存できないため、破滅的な忘れの問題に直面します。
モデルの各更新ステップの勾配をキャリブレーションする有効なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-07-30T16:30:09Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Task Arithmetic with LoRA for Continual Learning [0.0]
低ランク適応とタスク算術を用いて視覚モデルを継続的に訓練する新しい手法を提案する。
クラス毎に10個のサンプルを小さなメモリで支援すると,本手法はフルセットファインタニングに近い性能が得られる。
論文 参考訳(メタデータ) (2023-11-04T15:12:24Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Clustering-based Domain-Incremental Learning [4.835091081509403]
連続学習における鍵となる課題は、いわゆる「破滅的な忘れ問題」である。
動的に更新されたサンプルや勾配の有限プールに対するオンラインクラスタリングに基づくアプローチを提案する。
提案手法の有効性と将来性を示す。
論文 参考訳(メタデータ) (2023-09-21T13:49:05Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Accelerating Deep Learning with Dynamic Data Pruning [0.0]
ディープラーニングは、最先端のネットワークをトレーニングするために強力なコンピューティングシステムへのアクセスを必要とするため、違法にコストがかかるようになった。
forget scoresやGraNd/EL2N scoresといった以前の作業では、完全なデータセット内の重要なサンプルを特定し、残りのサンプルを刈り取ることで、エポック毎のイテレーションを減らすことができる。
本稿では,強化学習手法に基づく2つのアルゴリズムを提案し,ランダムな動的手法よりも高い精度でサンプルを動的にプーンする。
論文 参考訳(メタデータ) (2021-11-24T16:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。