論文の概要: Utility-based Perturbed Gradient Descent: An Optimizer for Continual
Learning
- arxiv url: http://arxiv.org/abs/2302.03281v2
- Date: Thu, 27 Apr 2023 17:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 16:36:22.674388
- Title: Utility-based Perturbed Gradient Descent: An Optimizer for Continual
Learning
- Title(参考訳): 効用に基づく摂動勾配降下:連続学習のための最適化器
- Authors: Mohamed Elsayed, A. Rupam Mahmood
- Abstract要約: Perturbed Gradient Descent (UPGD)は、連続学習エージェントに適したオンライン学習アルゴリズムである。
UPGDは有用重量や特徴を忘れることから保護する。
実験の結果,UPGDは可塑性の低減と維持に有効であり,近代的な表現学習手法が連続学習において効果的に機能できることが示唆された。
- 参考スコア(独自算出の注目度): 2.398608007786179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern representation learning methods often struggle to adapt quickly under
non-stationarity because they suffer from catastrophic forgetting and decaying
plasticity. Such problems prevent learners from fast adaptation since they may
forget useful features or have difficulty learning new ones. Hence, these
methods are rendered ineffective for continual learning. This paper proposes
Utility-based Perturbed Gradient Descent (UPGD), an online learning algorithm
well-suited for continual learning agents. UPGD protects useful weights or
features from forgetting and perturbs less useful ones based on their
utilities. Our empirical results show that UPGD helps reduce forgetting and
maintain plasticity, enabling modern representation learning methods to work
effectively in continual learning.
- Abstract(参考訳): 現代の表現学習法は、破滅的な忘れ物と崩壊する塑性に苦しむため、非定常下で急速に適応するのに苦労することが多い。
このような問題は、有用な特徴を忘れたり、新しいものを学ぶのが難しいため、学習者が迅速な適応を妨げます。
したがって、これらの手法は連続学習には効果がない。
本稿では,連続学習エージェントに適したオンライン学習アルゴリズムであるUtility-based Perturbed Gradient Descent (UPGD)を提案する。
upgdは、有用度や機能を、そのユーティリティに基づいて、あまり有用でないものを忘れることから保護する。
実験の結果,UPGDは可塑性の低減と維持に有効であり,現代の表現学習手法が連続学習において効果的に機能することを示唆した。
関連論文リスト
- Addressing Loss of Plasticity and Catastrophic Forgetting in Continual Learning [5.067473362927125]
本稿では,表現の連続学習のための新しいアプローチとして,実用性に基づく摂動勾配Descent (UPGD)を紹介した。
UPGDは勾配更新と摂動を組み合わせることで、より有用なユニットにより小さな修正を適用する。
既存の手法の多くは少なくとも1つの問題に悩まされており、その主な原因はタスクの精度の低下である。
論文 参考訳(メタデータ) (2024-03-31T19:57:38Z) - ECLIPSE: Efficient Continual Learning in Panoptic Segmentation with Visual Prompt Tuning [54.68180752416519]
パノプティカルセグメンテーション(英: Panoptic segmentation)は、コンピュータビジョンの最先端タスクである。
ECLIPSE と呼ばれる Visual Prompt Tuning をベースとした,新規で効率的なパノプティカルセグメンテーション手法を提案する。
我々のアプローチは、基本モデルのパラメータを凍結し、小さなプロンプト埋め込みだけを微調整することであり、破滅的な忘れ物と塑性の両方に対処する。
論文 参考訳(メタデータ) (2024-03-29T11:31:12Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - DLCFT: Deep Linear Continual Fine-Tuning for General Incremental
Learning [29.80680408934347]
事前学習した表現からモデルを連続的に微調整するインクリメンタルラーニングのための代替フレームワークを提案する。
本手法は, ニューラルネットワークの線形化手法を利用して, 単純かつ効果的な連続学習を行う。
本手法は,データ増分,タスク増分およびクラス増分学習問題において,一般的な連続学習設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-08-17T06:58:14Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Energy-based Latent Aligner for Incremental Learning [83.0135278697976]
ディープラーニングモデルは、新しいタスクを漸進的に学習しながら、以前の知識を忘れる傾向があります。
この振る舞いは、新しいタスクに最適化されたパラメータ更新が、古いタスクに適したアップデートとうまく一致しない可能性があるため現れます。
ELI: インクリメンタルラーニングのためのエネルギーベースラテントアリグナーを提案する。
論文 参考訳(メタデータ) (2022-03-28T17:57:25Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z) - Continually Learning Self-Supervised Representations with Projected
Functional Regularization [39.92600544186844]
近年の自己教師あり学習手法は高品質な画像表現を学習でき、教師ありの手法でギャップを埋めている。
これらの手法は、新たな知識を段階的に取得することができない -- 実際、主にIDデータによる事前学習フェーズとしてのみ使用される。
従来の知識を忘れないように,機能正規化の利用を提案する。
論文 参考訳(メタデータ) (2021-12-30T11:59:23Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Semi-Discriminative Representation Loss for Online Continual Learning [16.414031859647874]
勾配に基づくアプローチは、コンパクトなエピソードメモリをより効率的に活用するために開発されている。
本稿では,SDRL(Semi-Discriminative Representation Loss)という,連続学習のための簡易な手法を提案する。
論文 参考訳(メタデータ) (2020-06-19T17:13:42Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。