論文の概要: Continual Learning with Dynamic Sparse Training: Exploring Algorithms
for Effective Model Updates
- arxiv url: http://arxiv.org/abs/2308.14831v2
- Date: Mon, 4 Dec 2023 14:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:32:50.687397
- Title: Continual Learning with Dynamic Sparse Training: Exploring Algorithms
for Effective Model Updates
- Title(参考訳): ダイナミックスパーストレーニングによる連続学習:効果的なモデル更新のための探索アルゴリズム
- Authors: Murat Onur Yildirim, Elif Ceren Gok Yildirim, Ghada Sokar, Decebal
Constantin Mocanu, Joaquin Vanschoren
- Abstract要約: 連続学習(英: Continual Learning, CL)とは、知的なシステムが、可能な限り計算オーバーヘッドの少ないデータストリームから、逐次的に知識を取得し、保持する能力である。
ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、これらのスパースネットワークを見つけ、タスクごとに分離する方法である。
本論文は,CLパラダイムの下で異なるDST成分の効果を検証した最初の実証的研究である。
- 参考スコア(独自算出の注目度): 13.983410740333788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning (CL) refers to the ability of an intelligent system to
sequentially acquire and retain knowledge from a stream of data with as little
computational overhead as possible. To this end; regularization, replay,
architecture, and parameter isolation approaches were introduced to the
literature. Parameter isolation using a sparse network which enables to
allocate distinct parts of the neural network to different tasks and also
allows to share of parameters between tasks if they are similar. Dynamic Sparse
Training (DST) is a prominent way to find these sparse networks and isolate
them for each task. This paper is the first empirical study investigating the
effect of different DST components under the CL paradigm to fill a critical
research gap and shed light on the optimal configuration of DST for CL if it
exists. Therefore, we perform a comprehensive study in which we investigate
various DST components to find the best topology per task on well-known
CIFAR100 and miniImageNet benchmarks in a task-incremental CL setup since our
primary focus is to evaluate the performance of various DST criteria, rather
than the process of mask selection. We found that, at a low sparsity level,
Erdos-R\'enyi Kernel (ERK) initialization utilizes the backbone more
efficiently and allows to effectively learn increments of tasks. At a high
sparsity level, unless it is extreme, uniform initialization demonstrates a
more reliable and robust performance. In terms of growth strategy; performance
is dependent on the defined initialization strategy and the extent of sparsity.
Finally, adaptivity within DST components is a promising way for better
continual learners.
- Abstract(参考訳): 連続学習(continual learning, cl)とは、インテリジェントなシステムが、計算オーバーヘッドの少ないデータストリームから知識をシーケンシャルに取得し、保持する能力を指す。
この目的のために、正規化、リプレイ、アーキテクチャ、パラメータ分離アプローチが文献に紹介された。
スパースネットワークを使用してパラメータを分離することで、ニューラルネットワークの異なる部分を異なるタスクに割り当てると同時に、類似点がある場合のタスク間のパラメータの共有も可能になる。
ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、これらのスパースネットワークを見つけ、タスクごとに分離する方法である。
本論文は,CLパラダイムの下で異なるDST成分が重要な研究ギャップを埋める上で,CLに対するDSTの最適構成に光が及ぼす影響について,最初の実証的研究である。
そこで,我々はマスク選択のプロセスではなく,様々なdst基準の性能評価を主な目的とし,タスクインクリメンタルなcl設定において,cifar100やminiimagenetベンチマークにおいてタスク毎の最適なトポロジーを求めるため,様々なdstコンポーネントを調査した。
低空間レベルでは、Erdos-R\enyi Kernel(ERK)初期化は、バックボーンをより効率的に利用し、タスクの増分を効果的に学習できるようにする。
高疎度レベルでは、極端にない限り、均一な初期化はより信頼性が高く堅牢な性能を示す。
成長戦略の観点では、パフォーマンスは定義された初期化戦略と空間範囲に依存する。
最後に、DSTコンポーネント内の適応性は、継続的な学習者にとって有望な方法である。
関連論文リスト
- Loop Improvement: An Efficient Approach for Extracting Shared Features from Heterogeneous Data without Central Server [16.249442761713322]
LI(Loop Improvement)は、この分離と特徴抽出を、参加者間の中央サーバやデータ交換を必要とせずに強化する新しい手法である。
パーソナライズされたフェデレーション学習環境では、LIは様々なシナリオで高度なFedALAアルゴリズムよりも精度が高い。
LIの適応性はマルチタスク学習にまで拡張され、タスク間で共通の機能の抽出が合理化され、同時にトレーニングする必要がなくなる。
論文 参考訳(メタデータ) (2024-03-21T12:59:24Z) - Finding Foundation Models for Time Series Classification with a PreText
Task [7.197233473373693]
本稿では,時系列分類のための事前訓練済みドメイン基盤モデルを提案する。
我々の方法論の重要な側面は、複数のデータセットにまたがる新しいプリテキストタスクである。
UCRアーカイブの実験では,この事前学習戦略が,事前学習を伴わずに従来の訓練方法よりも有意に優れていたことが示されている。
論文 参考訳(メタデータ) (2023-11-24T15:03:55Z) - Fantastic Weights and How to Find Them: Where to Prune in Dynamic Sparse
Training [58.47622737624532]
本研究では,プルーニング基準が動的スパーストレーニング(DST)性能に及ぼす影響について検討する。
その結果,研究手法のほとんどが同様の結果をもたらすことがわかった。
最高のパフォーマンスは、最も単純なテクニックであるマグニチュードベースのプルーニングによって主に与えられる。
論文 参考訳(メタデータ) (2023-06-21T12:43:55Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。
RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重
そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:05:12Z) - Continual Learning with Gated Incremental Memories for sequential data
processing [14.657656286730736]
従来の知識を忘れずに動的で非定常的な環境で学習する能力、あるいは継続学習(CL)は、適応型ソリューションのスケーラブルで信頼性の高いデプロイを可能にする重要な手段である。
本研究では,従来の知識を忘れることなく,入力分布における概念ドリフトに対処できるCLのためのリカレントニューラルネットワーク(RNN)モデルを提案する。
論文 参考訳(メタデータ) (2020-04-08T16:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。