Fugu-MT 論文翻訳(概要): Challenging Common Assumptions about Catastrophic Forgetting

論文の概要: Challenging Common Assumptions about Catastrophic Forgetting

arxiv url: http://arxiv.org/abs/2207.04543v2
Date: Mon, 15 May 2023 22:27:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-17 19:55:37.420406
Title: Challenging Common Assumptions about Catastrophic Forgetting
Title（参考訳）: 破滅的投機に関する一般的な推測
Authors: Timoth\'ee Lesort, Oleksiy Ostapenko, Diganta Misra, Md Rifat Arefin, Pau Rodr\'iguez, Laurent Charlin, Irina Rish
Abstract要約: 本研究では,データ再帰を伴うタスクの長いシーケンスにおいて,勾配に基づくアルゴリズムを用いて訓練されたDNNにおける進歩的知識蓄積(KA)について検討する。そこで我々は,SCoLeという新しいフレームワークを提案し,SGDで訓練したDNNに対して破滅的忘れ込みが限定的であることを示す。
参考スコア（独自算出の注目度）: 13.1202659074346
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Building learning agents that can progressively learn and accumulate knowledge is the core goal of the continual learning (CL) research field. Unfortunately, training a model on new data usually compromises the performance on past data. In the CL literature, this effect is referred to as catastrophic forgetting (CF). CF has been largely studied, and a plethora of methods have been proposed to address it on short sequences of non-overlapping tasks. In such setups, CF always leads to a quick and significant drop in performance in past tasks. Nevertheless, despite CF, recent work showed that SGD training on linear models accumulates knowledge in a CL regression setup. This phenomenon becomes especially visible when tasks reoccur. We might then wonder if DNNs trained with SGD or any standard gradient-based optimization accumulate knowledge in such a way. Such phenomena would have interesting consequences for applying DNNs to real continual scenarios. Indeed, standard gradient-based optimization methods are significantly less computationally expensive than existing CL algorithms. In this paper, we study the progressive knowledge accumulation (KA) in DNNs trained with gradient-based algorithms in long sequences of tasks with data re-occurrence. We propose a new framework, SCoLe (Scaling Continual Learning), to investigate KA and discover that catastrophic forgetting has a limited effect on DNNs trained with SGD. When trained on long sequences with data sparsely re-occurring, the overall accuracy improves, which might be counter-intuitive given the CF phenomenon. We empirically investigate KA in DNNs under various data occurrence frequencies and propose simple and scalable strategies to increase knowledge accumulation in DNNs.
Abstract（参考訳）: 知識を段階的に学習し蓄積できる学習エージェントの構築は、継続学習(CL)研究分野のコア目標である。残念ながら、新しいデータに対するモデルのトレーニングは通常、過去のデータのパフォーマンスを損なう。 CL文献では、この効果は破滅的な忘れ(CF)と呼ばれる。 CFは主に研究され、重複しないタスクの短いシーケンスでそれに取り組むための多くの手法が提案されている。このようなセットアップでは、CFは常に過去のタスクにおけるパフォーマンスの迅速かつ重大な低下につながります。しかしながら,最近の研究では,線形モデルのSGDトレーニングがCL回帰設定に知識を蓄積していることが示されている。この現象はタスクが再発生すると特に顕著になる。そして、SGDで訓練されたDNNや標準勾配に基づく最適化が、そのような方法で知識を蓄積するかどうか疑問に思うかもしれない。このような現象は、実際の連続的なシナリオにDNNを適用する上で興味深い結果をもたらすだろう。実際、標準勾配に基づく最適化手法は既存のCLアルゴリズムよりも計算コストが大幅に低い。本稿では,DNNにおける進化的知識蓄積(KA)について,データ再帰を伴うタスクの長い列における勾配に基づくアルゴリズムを用いて学習した。そこで我々は,SCoLe (Scaling Continual Learning) という新しいフレームワークを提案し,SGDで訓練したDNNに破滅的な忘れ込みが限定的であることを示す。データの少ない長いシーケンスでトレーニングすると、全体的な精度が向上し、CF現象を考えると直感に反する可能性がある。各種データ発生頻度の異なるDNNにおけるKAを実験的に検討し,DNNにおける知識蓄積を高めるためのシンプルでスケーラブルな戦略を提案する。

関連論文リスト

Can LLMs Alleviate Catastrophic Forgetting in Graph Continual Learning? A Systematic Study [35.60356938705585]
グラフ構造データを含む実世界のデータはしばしばストリーミング方式で配信されるため、学習システムは新たな知識を継続的に取得する必要がある。本稿では,従来のGNNベースラインを約20%超えたシンプルなグラフ連続学習手法であるSimple Graph Continual Learning(SimGCL)を提案する。
論文参考訳（メタデータ） (2025-05-24T13:43:29Z)
A Good Start Matters: Enhancing Continual Learning with Data-Driven Weight Initialization [15.8696301825572]
連続訓練されたディープニューラルネットワーク(DNN)は、事前の知識を維持し、活用しながら、新しい概念を迅速に学習する必要がある。新しく遭遇したカテゴリのウェイトは通常ランダムに行われ、初等訓練の損失(スパイク)と不安定性に繋がる。ニューラル・コラプス(NC)に触発され,CLにおける学習効率向上のための重み付け初期化戦略を提案する。
論文参考訳（メタデータ） (2025-03-09T01:44:22Z)
Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文参考訳（メタデータ） (2024-10-10T10:58:41Z)
An Effective Dynamic Gradient Calibration Method for Continual Learning [11.555822066922508]
継続的学習(CL)は機械学習の基本的なトピックであり、目標は連続的なデータとタスクでモデルをトレーニングすることだ。メモリ制限のため、すべての履歴データを保存できないため、破滅的な忘れの問題に直面します。モデルの各更新ステップの勾配をキャリブレーションする有効なアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-07-30T16:30:09Z)
Revisiting Nearest Neighbor for Tabular Data: A Deep Tabular Baseline Two Decades Later [76.66498833720411]
K$-nearest neighbors (KNN) はもともと,インスタンス間のセマンティックな類似性を捉えるために線形投影を学習するために設計されたものだ。意外なことに、SGDを用いたNAAの実装と次元減少のない実装は、表データの良好な性能をすでに達成しています。本稿では、損失関数、予測戦略、深いアーキテクチャなど、これらの改善の背景にある要因を分析して、論文を締めくくる。
論文参考訳（メタデータ） (2024-07-03T16:38:57Z)
Forget but Recall: Incremental Latent Rectification in Continual Learning [21.600690867361617]
変化するデータストリームを継続的に学習する本質的な能力は、ディープニューラルネットワーク(DNN)のデシプラタムである既存の継続学習アプローチは、リプレイの模範を保ち、学習を規則化し、あるいは新しいタスクに専用容量を割り当てる。本稿では,Incrmental Latent Rectification (ILR) と呼ばれる,漸進学習のための未探索CL方向について検討する。
論文参考訳（メタデータ） (2024-06-25T08:57:47Z)
Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。 ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2024-05-23T08:43:09Z)
Overcoming the Stability Gap in Continual Learning [15.8696301825572]
事前トレーニングされたディープニューラルネットワーク(DNN)は、ビジネス上の意思決定とユーザへのサービス提供のために、業界によって広くデプロイされている。主要な問題はモデル崩壊であり、DNNの予測は時間が経つにつれて誤っているため、収益損失や不運なユーザーが発生する。本稿では,大規模な訓練済みDNNにおいて,連続学習(CL)がモデル崩壊を克服する可能性について検討する。
論文参考訳（メタデータ） (2023-06-02T20:24:55Z)
Learning Bayesian Sparse Networks with Full Experience Replay for Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文参考訳（メタデータ） (2022-02-21T13:25:03Z)
AirLoop: Lifelong Loop Closure Detection [5.3759730885842725]
AirLoopは、生涯学習のテクニックを活用して、ループクロージャ検出モデルを漸進的にトレーニングする際の忘れを最小化する手法である。本研究では,AirLoopがTartanAir,Norland,RobotCarの各データセットに与える影響を実験的に検証した。
論文参考訳（メタデータ） (2021-09-18T17:28:47Z)
Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。 RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文参考訳（メタデータ） (2020-06-22T10:05:12Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。