論文の概要: Catastrophic Forgetting in the Context of Model Updates
- arxiv url: http://arxiv.org/abs/2306.10181v1
- Date: Fri, 16 Jun 2023 21:21:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 23:56:00.916102
- Title: Catastrophic Forgetting in the Context of Model Updates
- Title(参考訳): モデル更新の文脈における破滅的忘れ
- Authors: Rich Harang, Hillary Sanders
- Abstract要約: ディープニューラルネットワークは、トレーニングに何万ドルもかかる可能性がある。
新しいデータがパイプラインに入ると、既存のすべてのデータから新しいモデルをスクラッチからトレーニングすることができる。
前者は高価で遅い。後者は安くて速いが、破滅的な忘れ物は、新しいモデルを「忘れる」ために古いデータをうまく分類する。
- 参考スコア(独自算出の注目度): 0.360953887026184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A large obstacle to deploying deep learning models in practice is the process
of updating models post-deployment (ideally, frequently). Deep neural networks
can cost many thousands of dollars to train. When new data comes in the
pipeline, you can train a new model from scratch (randomly initialized weights)
on all existing data. Instead, you can take an existing model and fine-tune
(continue to train) it on new data. The former is costly and slow. The latter
is cheap and fast, but catastrophic forgetting generally causes the new model
to 'forget' how to classify older data well. There are a plethora of
complicated techniques to keep models from forgetting their past learnings.
Arguably the most basic is to mix in a small amount of past data into the new
data during fine-tuning: also known as 'data rehearsal'. In this paper, we
compare various methods of limiting catastrophic forgetting and conclude that
if you can maintain access to a portion of your past data (or tasks), data
rehearsal is ideal in terms of overall accuracy across all time periods, and
performs even better when combined with methods like Elastic Weight
Consolidation (EWC). Especially when the amount of past data (past 'tasks') is
large compared to new data, the cost of updating an existing model is far
cheaper and faster than training a new model from scratch.
- Abstract(参考訳): ディープラーニングモデルを実際にデプロイする上での大きな障害は、デプロイ後のモデル(理想的には頻繁に)を更新するプロセスです。
ディープニューラルネットワークは、トレーニングに数千ドルかかる可能性がある。
新しいデータがパイプラインに入ると、既存のすべてのデータに対して、スクラッチ(ランダムに初期化重み付け)から新しいモデルをトレーニングできます。
代わりに、既存のモデルと微調整(トレーニングの継続)を新しいデータで行うことができます。
前者は費用がかかり、遅い。
後者は安価で高速だが、大惨事は一般的に、新しいモデルが古いデータを適切に分類する方法を「忘れる」ことになる。
モデルが過去の学習を忘れないようにするための複雑なテクニックはたくさんあります。
おそらく最も基本的なのは、微調整中に少量の過去のデータを新しいデータに混ぜることである。
本稿では,過去のデータ(あるいはタスク)の一部へのアクセスを維持できれば,データリハーサルは全期間にわたって総合的精度の点で理想的であり,弾性重み強化(EWC)のような手法と組み合わせれば,さらに優れたパフォーマンスが得られると結論付ける。
特に過去のデータ(past 'tasks')が新しいデータに比べて大きい場合、既存のモデルをスクラッチからトレーニングするよりも、既存のモデルを更新するコストがはるかに安く、より速くなります。
関連論文リスト
- LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - Continual Pre-Training of Large Language Models: How to (re)warm your
model? [21.8468835868142]
大規模言語モデル(LLM)はトークン上で定期的に事前訓練されるが、新しいデータが利用可能になると再起動する。
我々は,SlimPajama(下流データ,297Bトークン)の事前トレーニングを続けながら,パイル(上流データ,300Bトークン)で事前訓練されたモデルのウォームアップフェーズについて検討した。
以上の結果から,上流データと下流データの損失は再温暖化によって増大するが,より長い実行でダウンストリームのパフォーマンスが向上し,大規模なダウンストリームデータセットに対して10億ドルからトレーニングしたモデルよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-08-08T03:18:18Z) - OLR-WA Online Regression with Weighted Average [0.0]
機械学習モデルをトレーニングするための新しいオンライン線形回帰手法を導入する。
導入されたモデルはOLR-WAと呼ばれ、データ変更時に柔軟性を提供するためにユーザ定義の重みを使用する。
一貫性のあるデータに対して、OLR-WAと静的バッチモデルも同様に、そして様々なデータに対して、ユーザがOLR-WAをより迅速に適応するように設定したり、変更に抵抗したりすることができる。
論文 参考訳(メタデータ) (2023-07-06T06:39:27Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - Revisiting the Updates of a Pre-trained Model for Few-shot Learning [11.871523410051527]
我々は2つの人気のある更新手法、微調整と線形探索を比較した。
試料数の増加に伴い, 微調整は線形探索より優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-13T08:47:06Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Forward Compatible Training for Representation Learning [53.300192863727226]
後方互換トレーニング(BCT)は、新しいモデルのトレーニングを変更して、その表現を古いモデルのトレーニングと互換性を持たせる。
BCTは新しいモデルの性能を著しく損なう可能性がある。
本研究では,表現学習のための新しい学習パラダイムである,前方互換学習(FCT)を提案する。
論文 参考訳(メタデータ) (2021-12-06T06:18:54Z) - SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文 参考訳(メタデータ) (2021-07-08T14:17:24Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z) - Update Frequently, Update Fast: Retraining Semantic Parsing Systems in a
Fraction of Time [11.035461657669096]
微調整により,スクラッチからトレーニングしたモデルの性能を10%未満の時間で一致させることができることを示す。
提案手法がFacebook TOPとSNIPSデータセットの複数分割に対して有効であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:37:41Z) - Neural Network Retraining for Model Serving [32.857847595096025]
我々は、推論における新しいデータの継続的な流れに対応するために、ニューラルネットワークモデルの漸進的(再)トレーニングを提案する。
破滅的な再トレーニングと効率的な再トレーニングの2つの課題に対処する。
論文 参考訳(メタデータ) (2020-04-29T13:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。