論文の概要: Mitigating Catastrophic Forgetting in Long Short-Term Memory Networks
- arxiv url: http://arxiv.org/abs/2305.17244v1
- Date: Fri, 26 May 2023 20:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 21:01:44.025483
- Title: Mitigating Catastrophic Forgetting in Long Short-Term Memory Networks
- Title(参考訳): 長期記憶ネットワークにおける壊滅的記憶の軽減
- Authors: Ketaki Joshi, Raghavendra Pradyumna Pothukuchi, Andre Wibisono,
Abhishek Bhattacharjee
- Abstract要約: シーケンシャルデータに対する継続的な学習は多くの機械学習(ML)デプロイメントにおいて重要である。
LSTMネットワークは破滅的な忘れ込みに悩まされており、複数のタスクを継続的に学習する能力に制限がある。
LSTMネットワークにおける破滅的な忘れは、2つの斬新で容易に実装可能な方法で克服できることがわかった。
- 参考スコア(独自算出の注目度): 7.291687946822538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning on sequential data is critical for many machine learning
(ML) deployments. Unfortunately, LSTM networks, which are commonly used to
learn on sequential data, suffer from catastrophic forgetting and are limited
in their ability to learn multiple tasks continually. We discover that
catastrophic forgetting in LSTM networks can be overcome in two novel and
readily-implementable ways -- separating the LSTM memory either for each task
or for each target label. Our approach eschews the need for explicit
regularization, hypernetworks, and other complex methods. We quantify the
benefits of our approach on recently-proposed LSTM networks for computer memory
access prefetching, an important sequential learning problem in ML-based
computer system optimization. Compared to state-of-the-art weight
regularization methods to mitigate catastrophic forgetting, our approach is
simple, effective, and enables faster learning. We also show that our proposal
enables the use of small, non-regularized LSTM networks for complex natural
language processing in the offline learning scenario, which was previously
considered difficult.
- Abstract(参考訳): シーケンシャルデータに対する継続的な学習は多くの機械学習(ML)デプロイメントにおいて重要である。
残念ながら、シーケンシャルなデータで学ぶのによく使われるLSTMネットワークは破滅的な忘れ込みに悩まされており、複数のタスクを継続的に学習する能力に制限がある。
LSTMネットワークにおける破滅的な忘れは、2つの斬新で容易に実装可能な方法で克服可能であることを発見し、LSTMメモリを各タスクまたは各ターゲットラベルで分離する。
我々のアプローチは、明示的な正規化、ハイパーネットワーク、その他の複雑なメソッドの必要性を高めます。
我々は,MLベースのコンピュータシステム最適化において重要な逐次学習問題である,コンピュータメモリアクセスプリフェッチのための最近提案されたLSTMネットワークに対するアプローチの利点を定量化する。
破滅的な忘れを和らげるための最先端の重み正規化手法と比較して、我々のアプローチは単純で効果的であり、より高速な学習を可能にする。
また,本提案では,従来困難とされていたオフライン学習シナリオにおいて,複雑な自然言語処理に小型で正規化されていないlstmネットワークを使用できることを示す。
関連論文リスト
- RED-CT: A Systems Design Methodology for Using LLM-labeled Data to Train and Deploy Edge Classifiers for Computational Social Science [0.46560775769914914]
大規模言語モデル(LLM)は、構造化されていない自然言語データを迅速に分析し分類する能力を向上した。
しかしながら、コスト、ネットワーク制限、セキュリティ上の制約に関する懸念は、彼らの作業プロセスへの統合に問題を引き起こしている。
本研究では,下流教師あり学習タスクにおいて,LLMを不完全なデータアノテータとして利用するシステム設計手法を採用する。
論文 参考訳(メタデータ) (2024-08-15T15:28:37Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - netFound: Foundation Model for Network Security [11.38388749887112]
本稿では,新しいトランスフォーマーベースネットワーク基盤モデルであるnetFoundを紹介する。
我々は、事前学習のために、豊富なラベルのないネットワークテレメトリデータに自己教師付き学習技術を採用する。
実運用環境では,netFoundが隠れたネットワークコンテキストを効果的にキャプチャすることを示す。
論文 参考訳(メタデータ) (2023-10-25T22:04:57Z) - On the Soft-Subnetwork for Few-shot Class Incremental Learning [67.0373924836107]
本稿では,emphSoft-SubNetworks (SoftNet) と呼ばれる数発のクラスインクリメンタルラーニング(FSCIL)手法を提案する。
私たちの目的はセッションの連続を漸進的に学習することであり、各セッションは、以前に学習したセッションの知識を保持しながら、クラス毎にいくつかのトレーニングインスタンスのみを含む。
我々は、ベンチマークデータセットよりも最先端のベースラインのパフォーマンスを超越して、SoftNetが数発のインクリメンタル学習問題に効果的に取り組むことを示す、総合的な実証検証を提供する。
論文 参考訳(メタデータ) (2022-09-15T04:54:02Z) - Learning towards Synchronous Network Memorizability and Generalizability
for Continual Segmentation across Multiple Sites [52.84959869494459]
臨床実践では、複数のサイトから連続的なデータストリームを継続的に学習するために、セグメンテーションネットワークが必要であることが多い。
既存の方法は、通常、以前のサイトのネットワーク記憶可能性や、目に見えないサイトの一般化可能性に制限される。
本稿では,SMG学習フレームワークの提案により,同期記憶可能性と一般化可能性の問題に取り組むことを目的とする。
論文 参考訳(メタデータ) (2022-06-14T13:04:36Z) - LSTMSPLIT: Effective SPLIT Learning based LSTM on Sequential Time-Series
Data [3.9011223632827385]
本稿では,LSTMネットワークを用いたSLアーキテクチャを用いて,時系列データを複数のクライアントで分類するLSTMSPLITを提案する。
提案手法であるLSTMSPLITは, 心電図データセットとヒト活動認識データセットを用いたSplit-1DCNN法と比較して, 精度が向上した。
論文 参考訳(メタデータ) (2022-03-08T11:44:12Z) - La-MAML: Look-ahead Meta Learning for Continual Learning [14.405620521842621]
オンライン連続学習のための高速最適化に基づくメタ学習アルゴリズムであるLook-ahead MAML(La-MAML)を提案する。
La-MAMLは他のリプレイベース、事前ベース、メタラーニングベースアプローチよりも優れたパフォーマンスを実現し、実世界の視覚分類ベンチマークで連続学習を行う。
論文 参考訳(メタデータ) (2020-07-27T23:07:01Z) - Neuromodulated Neural Architectures with Local Error Signals for
Memory-Constrained Online Continual Learning [4.2903672492917755]
我々は,局所学習とニューロ変調を取り入れた,生物学的にインスパイアされた軽量ニューラルネットワークアーキテクチャを開発した。
一つの課題と連続的な学習環境の両方にアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-07-16T07:41:23Z) - Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。
RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重
そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:05:12Z) - LSM: Learning Subspace Minimization for Low-level Vision [78.27774638569218]
我々は、正規化項を学習可能な部分空間制約に置き換え、データ項をドメイン知識を活用するために保存する。
この学習サブスペース最小化(LSM)フレームワークは、多くの低レベル視覚タスクのネットワーク構造とパラメータを統一する。
インタラクティブな画像セグメンテーション、ビデオセグメンテーション、ステレオマッチング、オプティカルフローを含む4つの低レベルタスクについてLSMフレームワークを実証し、様々なデータセット上でネットワークを検証した。
論文 参考訳(メタデータ) (2020-04-20T10:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。