Fugu-MT 論文翻訳(概要): Utility-based Perturbed Gradient Descent: An Optimizer for Continual Learning

論文の概要: Utility-based Perturbed Gradient Descent: An Optimizer for Continual Learning

arxiv url: http://arxiv.org/abs/2302.03281v2
Date: Thu, 27 Apr 2023 17:54:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-28 16:36:22.674388
Title: Utility-based Perturbed Gradient Descent: An Optimizer for Continual Learning
Title（参考訳）: 効用に基づく摂動勾配降下:連続学習のための最適化器
Authors: Mohamed Elsayed, A. Rupam Mahmood
Abstract要約: Perturbed Gradient Descent (UPGD)は、連続学習エージェントに適したオンライン学習アルゴリズムである。 UPGDは有用重量や特徴を忘れることから保護する。実験の結果,UPGDは可塑性の低減と維持に有効であり,近代的な表現学習手法が連続学習において効果的に機能できることが示唆された。
参考スコア（独自算出の注目度）: 2.398608007786179
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern representation learning methods often struggle to adapt quickly under non-stationarity because they suffer from catastrophic forgetting and decaying plasticity. Such problems prevent learners from fast adaptation since they may forget useful features or have difficulty learning new ones. Hence, these methods are rendered ineffective for continual learning. This paper proposes Utility-based Perturbed Gradient Descent (UPGD), an online learning algorithm well-suited for continual learning agents. UPGD protects useful weights or features from forgetting and perturbs less useful ones based on their utilities. Our empirical results show that UPGD helps reduce forgetting and maintain plasticity, enabling modern representation learning methods to work effectively in continual learning.
Abstract（参考訳）: 現代の表現学習法は、破滅的な忘れ物と崩壊する塑性に苦しむため、非定常下で急速に適応するのに苦労することが多い。このような問題は、有用な特徴を忘れたり、新しいものを学ぶのが難しいため、学習者が迅速な適応を妨げます。したがって、これらの手法は連続学習には効果がない。本稿では,連続学習エージェントに適したオンライン学習アルゴリズムであるUtility-based Perturbed Gradient Descent (UPGD)を提案する。 upgdは、有用度や機能を、そのユーティリティに基づいて、あまり有用でないものを忘れることから保護する。実験の結果,UPGDは可塑性の低減と維持に有効であり,現代の表現学習手法が連続学習において効果的に機能することを示唆した。

関連論文リスト

Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文参考訳（メタデータ） (2024-10-10T10:58:41Z)
Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文参考訳（メタデータ） (2024-07-01T20:58:01Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Addressing Loss of Plasticity and Catastrophic Forgetting in Continual Learning [5.067473362927125]
本稿では,表現の連続学習のための新しいアプローチとして,実用性に基づく摂動勾配Descent (UPGD)を紹介した。 UPGDは勾配更新と摂動を組み合わせることで、より有用なユニットにより小さな修正を適用する。既存の手法の多くは少なくとも1つの問題に悩まされており、その主な原因はタスクの精度の低下である。
論文参考訳（メタデータ） (2024-03-31T19:57:38Z)
ECLIPSE: Efficient Continual Learning in Panoptic Segmentation with Visual Prompt Tuning [54.68180752416519]
パノプティカルセグメンテーション(英: Panoptic segmentation)は、コンピュータビジョンの最先端タスクである。 ECLIPSE と呼ばれる Visual Prompt Tuning をベースとした,新規で効率的なパノプティカルセグメンテーション手法を提案する。我々のアプローチは、基本モデルのパラメータを凍結し、小さなプロンプト埋め込みだけを微調整することであり、破滅的な忘れ物と塑性の両方に対処する。
論文参考訳（メタデータ） (2024-03-29T11:31:12Z)
Improving Continual Learning Performance and Efficiency with Auxiliary Classifiers [12.561018201238152]
ニューラルネットワーク層における中間表現は忘れがちであり、計算を高速化する可能性を強調している。また,ACを用いて推定平均コストを10～60%削減する。
論文参考訳（メタデータ） (2024-03-12T08:33:26Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-09-15T17:10:51Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
Energy-based Latent Aligner for Incremental Learning [83.0135278697976]
ディープラーニングモデルは、新しいタスクを漸進的に学習しながら、以前の知識を忘れる傾向があります。この振る舞いは、新しいタスクに最適化されたパラメータ更新が、古いタスクに適したアップデートとうまく一致しない可能性があるため現れます。 ELI: インクリメンタルラーニングのためのエネルギーベースラテントアリグナーを提案する。
論文参考訳（メタデータ） (2022-03-28T17:57:25Z)
Continually Learning Self-Supervised Representations with Projected Functional Regularization [39.92600544186844]
近年の自己教師あり学習手法は高品質な画像表現を学習でき、教師ありの手法でギャップを埋めている。これらの手法は、新たな知識を段階的に取得することができない -- 実際、主にIDデータによる事前学習フェーズとしてのみ使用される。従来の知識を忘れないように,機能正規化の利用を提案する。
論文参考訳（メタデータ） (2021-12-30T11:59:23Z)
Semi-Discriminative Representation Loss for Online Continual Learning [16.414031859647874]
勾配に基づくアプローチは、コンパクトなエピソードメモリをより効率的に活用するために開発されている。本稿では,SDRL(Semi-Discriminative Representation Loss)という,連続学習のための簡易な手法を提案する。
論文参考訳（メタデータ） (2020-06-19T17:13:42Z)
META-Learning Eligibility Traces for More Sample Efficient Temporal Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文参考訳（メタデータ） (2020-06-16T03:41:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。