Fugu-MT 論文翻訳(概要): Scaling the Number of Tasks in Continual Learning

論文の概要: Scaling the Number of Tasks in Continual Learning

arxiv url: http://arxiv.org/abs/2207.04543v1
Date: Sun, 10 Jul 2022 21:40:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-13 04:22:48.173009
Title: Scaling the Number of Tasks in Continual Learning
Title（参考訳）: 継続的学習におけるタスク数の拡大
Authors: Timoth\'ee Lesort, Oleksiy Ostapenko, Diganta Misra, Md Rifat Arefin, Pau Rodr\'iguez, Laurent Charlin, Irina Rish
Abstract要約: 我々は、勾配勾配降下が学習し、進行し、既存の文献に従えば連続的な学習アルゴリズムを必要とする解に収束できることを示す。本研究では,潜在的無限列におけるアルゴリズムの知識保持と蓄積を研究するための新しい実験フレームワークであるSCoLeを提案する。
参考スコア（独自算出の注目度）: 13.1202659074346
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Standard gradient descent algorithms applied to sequences of tasks are known to produce catastrophic forgetting in deep neural networks. When trained on a new task in a sequence, the model updates its parameters on the current task, forgetting past knowledge. This article explores scenarios where we scale the number of tasks in a finite environment. Those scenarios are composed of a long sequence of tasks with reoccurring data. We show that in such setting, stochastic gradient descent can learn, progress, and converge to a solution that according to existing literature needs a continual learning algorithm. In other words, we show that the model performs knowledge retention and accumulation without specific memorization mechanisms. We propose a new experimentation framework, SCoLe (Scaling Continual Learning), to study the knowledge retention and accumulation of algorithms in potentially infinite sequences of tasks. To explore this setting, we performed a large number of experiments on sequences of 1,000 tasks to better understand this new family of settings. We also propose a slight modifications to the vanilla stochastic gradient descent to facilitate continual learning in this setting. The SCoLe framework represents a good simulation of practical training environments with reoccurring situations and allows the study of convergence behavior in long sequences. Our experiments show that previous results on short scenarios cannot always be extrapolated to longer scenarios.
Abstract（参考訳）: タスクのシーケンスに適用される標準的な勾配降下アルゴリズムは、ディープニューラルネットワークで壊滅的な忘れを生じることが知られている。シーケンス内の新しいタスクでトレーニングされると、モデルは現在のタスクのパラメータを更新し、過去の知識を忘れます。本稿では,有限環境におけるタスク数を拡大するシナリオについて考察する。これらのシナリオは、繰り返しデータを含む長い一連のタスクで構成されます。このような環境では、確率的勾配降下は学習し、進行し、収束し、既存の文献によれば連続学習アルゴリズムが必要である。言い換えれば、モデルが特定の記憶機構を使わずに知識保持と蓄積を行うことを示す。タスクの無限列におけるアルゴリズムの知識保持と蓄積を研究するための新しい実験フレームワークであるSCoLe(Scaling Continual Learning)を提案する。この設定を探索するために、この新しい設定のファミリーをよりよく理解するために、1000のタスクのシーケンスについて多数の実験を行った。また,この設定における連続学習を容易にするために,バニラ確率勾配勾配の微修正も提案する。 scoleフレームワークは、繰り返し発生する状況を伴う実践的なトレーニング環境のよいシミュレーションであり、長いシーケンスにおける収束行動の研究を可能にする。我々の実験は、短いシナリオでの以前の結果は、常に長いシナリオに外挿できないことを示した。

関連論文リスト

Can LLMs Alleviate Catastrophic Forgetting in Graph Continual Learning? A Systematic Study [35.60356938705585]
グラフ構造データを含む実世界のデータはしばしばストリーミング方式で配信されるため、学習システムは新たな知識を継続的に取得する必要がある。本稿では,従来のGNNベースラインを約20%超えたシンプルなグラフ連続学習手法であるSimple Graph Continual Learning(SimGCL)を提案する。
論文参考訳（メタデータ） (2025-05-24T13:43:29Z)
A Good Start Matters: Enhancing Continual Learning with Data-Driven Weight Initialization [15.8696301825572]
連続訓練されたディープニューラルネットワーク(DNN)は、事前の知識を維持し、活用しながら、新しい概念を迅速に学習する必要がある。新しく遭遇したカテゴリのウェイトは通常ランダムに行われ、初等訓練の損失(スパイク)と不安定性に繋がる。ニューラル・コラプス(NC)に触発され,CLにおける学習効率向上のための重み付け初期化戦略を提案する。
論文参考訳（メタデータ） (2025-03-09T01:44:22Z)
Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文参考訳（メタデータ） (2024-10-10T10:58:41Z)
An Effective Dynamic Gradient Calibration Method for Continual Learning [11.555822066922508]
継続的学習(CL)は機械学習の基本的なトピックであり、目標は連続的なデータとタスクでモデルをトレーニングすることだ。メモリ制限のため、すべての履歴データを保存できないため、破滅的な忘れの問題に直面します。モデルの各更新ステップの勾配をキャリブレーションする有効なアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-07-30T16:30:09Z)
Revisiting Nearest Neighbor for Tabular Data: A Deep Tabular Baseline Two Decades Later [76.66498833720411]
K$-nearest neighbors (KNN) はもともと,インスタンス間のセマンティックな類似性を捉えるために線形投影を学習するために設計されたものだ。意外なことに、SGDを用いたNAAの実装と次元減少のない実装は、表データの良好な性能をすでに達成しています。本稿では、損失関数、予測戦略、深いアーキテクチャなど、これらの改善の背景にある要因を分析して、論文を締めくくる。
論文参考訳（メタデータ） (2024-07-03T16:38:57Z)
Forget but Recall: Incremental Latent Rectification in Continual Learning [21.600690867361617]
変化するデータストリームを継続的に学習する本質的な能力は、ディープニューラルネットワーク(DNN)のデシプラタムである既存の継続学習アプローチは、リプレイの模範を保ち、学習を規則化し、あるいは新しいタスクに専用容量を割り当てる。本稿では,Incrmental Latent Rectification (ILR) と呼ばれる,漸進学習のための未探索CL方向について検討する。
論文参考訳（メタデータ） (2024-06-25T08:57:47Z)
Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。 ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2024-05-23T08:43:09Z)
Overcoming the Stability Gap in Continual Learning [15.8696301825572]
事前トレーニングされたディープニューラルネットワーク(DNN)は、ビジネス上の意思決定とユーザへのサービス提供のために、業界によって広くデプロイされている。主要な問題はモデル崩壊であり、DNNの予測は時間が経つにつれて誤っているため、収益損失や不運なユーザーが発生する。本稿では,大規模な訓練済みDNNにおいて,連続学習(CL)がモデル崩壊を克服する可能性について検討する。
論文参考訳（メタデータ） (2023-06-02T20:24:55Z)
Learning Bayesian Sparse Networks with Full Experience Replay for Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文参考訳（メタデータ） (2022-02-21T13:25:03Z)
AirLoop: Lifelong Loop Closure Detection [5.3759730885842725]
AirLoopは、生涯学習のテクニックを活用して、ループクロージャ検出モデルを漸進的にトレーニングする際の忘れを最小化する手法である。本研究では,AirLoopがTartanAir,Norland,RobotCarの各データセットに与える影響を実験的に検証した。
論文参考訳（メタデータ） (2021-09-18T17:28:47Z)
Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。 RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文参考訳（メタデータ） (2020-06-22T10:05:12Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。