論文の概要: Overcoming the Stability Gap in Continual Learning
- arxiv url: http://arxiv.org/abs/2306.01904v3
- Date: Fri, 17 May 2024 19:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 00:50:05.856957
- Title: Overcoming the Stability Gap in Continual Learning
- Title(参考訳): 継続的学習における安定性のギャップを克服する
- Authors: Md Yousuf Harun, Christopher Kanan,
- Abstract要約: 事前トレーニングされたディープニューラルネットワーク(DNN)は、ビジネス上の意思決定とユーザへのサービス提供のために、業界によって広くデプロイされている。
主要な問題はモデル崩壊であり、DNNの予測は時間が経つにつれて誤っているため、収益損失や不運なユーザーが発生する。
本稿では,大規模な訓練済みDNNにおいて,連続学習(CL)がモデル崩壊を克服する可能性について検討する。
- 参考スコア(独自算出の注目度): 15.8696301825572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained deep neural networks (DNNs) are being widely deployed by industry for making business decisions and to serve users; however, a major problem is model decay, where the DNN's predictions become more erroneous over time, resulting in revenue loss or unhappy users. To mitigate model decay, DNNs are retrained from scratch using old and new data. This is computationally expensive, so retraining happens only once performance has significantly decreased. Here, we study how continual learning (CL) could potentially overcome model decay in large pre-trained DNNs and also greatly reduce computational costs for keeping DNNs up-to-date. We identify the ``stability gap'' as a major obstacle in our setting. The stability gap refers to a phenomenon where learning new data causes large drops in performance for past tasks before CL mitigation methods eventually compensate for this drop. We test two hypotheses for why the stability gap occurs and identify a method that vastly reduces this gap. In large-scale experiments for both easy and hard CL distributions (e.g., class incremental learning), we demonstrate that our method reduces the stability gap and greatly increases computational efficiency. Our work aligns CL with the goals of the production setting, where CL is needed for many applications.
- Abstract(参考訳): 事前トレーニングされたディープニューラルネットワーク(DNN)は、ビジネス上の意思決定とユーザへのサービス提供のために、業界によって広くデプロイされているが、大きな問題はモデル崩壊である。
モデル崩壊を軽減するため、DNNは古いデータと新しいデータを使ってゼロから再訓練される。
これは計算コストがかかるため、再トレーニングはパフォーマンスが大幅に低下した時にのみ行われる。
本稿では,大規模なDNNにおけるモデル崩壊を克服し,DNNを最新に保つための計算コストを大幅に削減する可能性について検討する。
私たちは '`stability gap'' を,私たちの設定の大きな障害と捉えています。
安定性のギャップは、CL緩和法が最終的にこの低下を補う前に、新しいデータを学習することで過去のタスクのパフォーマンスが大幅に低下する現象を指す。
安定性のギャップが発生する理由を2つの仮説で検証し、このギャップを大幅に削減する手法を同定する。
簡単なCL分布と難解なCL分布(例:クラスインクリメンタルラーニング)の大規模実験において,本手法が安定性のギャップを減らし,計算効率を大幅に向上させることを示した。
当社の作業は、CLが多くのアプリケーションで必要となる本番環境の目標と整合しています。
関連論文リスト
- Exploring the Stability Gap in Continual Learning: The Role of the Classification Head [0.6749750044497732]
安定性のギャップは、トレーニング中に部分的に回復する前に、モデルが最初に学習したタスクのパフォーマンスを失う現象である。
バックボーンと分類ヘッドが安定性のギャップに与える影響を評価できるツールとして,NMC(Nest-mean Classifier)を導入した。
実験の結果, NMCは最終性能を向上するだけでなく, 各種連続学習ベンチマークのトレーニング安定性を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-11-06T15:45:01Z) - MAD-TD: Model-Augmented Data stabilizes High Update Ratio RL [20.22674077197914]
最近の研究は、新しいサンプルごとに多数の勾配ステップを持つニューラルネットワークの更新について検討している。
高い更新とデータの比率は、トレーニングプロセスに不安定をもたらす。
時間差分学習のためのモデル拡張データ(MAD-TD)は,少数の生成データを用いて高UTDトレーニングを安定化する。
論文 参考訳(メタデータ) (2024-10-11T15:13:17Z) - Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Forget but Recall: Incremental Latent Rectification in Continual Learning [21.600690867361617]
変化するデータストリームを継続的に学習する本質的な能力は、ディープニューラルネットワーク(DNN)のデシプラタムである
既存の継続学習アプローチは、リプレイの模範を保ち、学習を規則化し、あるいは新しいタスクに専用容量を割り当てる。
本稿では,Incrmental Latent Rectification (ILR) と呼ばれる,漸進学習のための未探索CL方向について検討する。
論文 参考訳(メタデータ) (2024-06-25T08:57:47Z) - Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。
畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文 参考訳(メタデータ) (2023-06-14T01:24:42Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Challenging Common Assumptions about Catastrophic Forgetting [13.1202659074346]
本研究では,データ再帰を伴うタスクの長いシーケンスにおいて,勾配に基づくアルゴリズムを用いて訓練されたDNNにおける進歩的知識蓄積(KA)について検討する。
そこで我々は,SCoLeという新しいフレームワークを提案し,SGDで訓練したDNNに対して破滅的忘れ込みが限定的であることを示す。
論文 参考訳(メタデータ) (2022-07-10T21:40:54Z) - Balanced Softmax Cross-Entropy for Incremental Learning [6.5423218639215275]
ディープニューラルネットワークは、新しいクラスや新しいタスクで段階的に訓練されると壊滅的な忘れがちです。
近年の手法は破滅的な忘れを緩和するのに有効であることが証明されている。
本稿では,バランスの取れたソフトマックスクロスエントロピー損失の利用を提案し,それとインクリメンタル学習のための離脱法を組み合わせることで,パフォーマンスを向上させることができることを示す。
論文 参考訳(メタデータ) (2021-03-23T13:30:26Z) - S2-BNN: Bridging the Gap Between Self-Supervised Real and 1-bit Neural
Networks via Guided Distribution Calibration [74.5509794733707]
本研究では, 実数値から, 最終予測分布上のバイナリネットワークへの誘導型学習パラダイムを提案する。
提案手法は,bnn上で5.515%の絶対利得で,単純なコントラスト学習ベースラインを向上できる。
提案手法は、単純なコントラスト学習ベースラインよりも大幅に改善され、多くの主流教師付きBNN手法に匹敵する。
論文 参考訳(メタデータ) (2021-02-17T18:59:28Z) - Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。
RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重
そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。