論文の概要: Step-size Optimization for Continual Learning
- arxiv url: http://arxiv.org/abs/2401.17401v1
- Date: Tue, 30 Jan 2024 19:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:25:56.788942
- Title: Step-size Optimization for Continual Learning
- Title(参考訳): 連続学習のためのステップサイズ最適化
- Authors: Thomas Degris, Khurram Javed, Arsalan Sharifnassab, Yuxin Liu, Richard
Sutton
- Abstract要約: 継続的な学習では、学習者は生涯にわたってデータから学び続けなければならない。
ニューラルネットワークでは、ステップサイズのベクトルを使用して、サンプルがネットワーク重みを変化させる程度をスケールすることで、これを実装できる。
RMSPropやAdamのような一般的なアルゴリズムは、このステップサイズのベクトルに適応するために勾配、特に正規化を使用する。
- 参考スコア(独自算出の注目度): 5.834516080130717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In continual learning, a learner has to keep learning from the data over its
whole life time. A key issue is to decide what knowledge to keep and what
knowledge to let go. In a neural network, this can be implemented by using a
step-size vector to scale how much gradient samples change network weights.
Common algorithms, like RMSProp and Adam, use heuristics, specifically
normalization, to adapt this step-size vector. In this paper, we show that
those heuristics ignore the effect of their adaptation on the overall objective
function, for example by moving the step-size vector away from better step-size
vectors. On the other hand, stochastic meta-gradient descent algorithms, like
IDBD (Sutton, 1992), explicitly optimize the step-size vector with respect to
the overall objective function. On simple problems, we show that IDBD is able
to consistently improve step-size vectors, where RMSProp and Adam do not. We
explain the differences between the two approaches and their respective
limitations. We conclude by suggesting that combining both approaches could be
a promising future direction to improve the performance of neural networks in
continual learning.
- Abstract(参考訳): 継続的な学習では、学習者は生涯にわたってデータから学び続けなければならない。
鍵となる問題は、どの知識を保ち、どの知識を離すかを決めることである。
ニューラルネットワークでは、ステップサイズのベクトルを使用して、勾配サンプルがネットワーク重みを変化させる程度をスケールすることができる。
rmspropやadamのような一般的なアルゴリズムは、このステップサイズのベクトルに適応するためにヒューリスティック、特に正規化を用いる。
本稿では,これらのヒューリスティックは,例えば,ステップサイズベクトルをより優れたステップサイズベクトルから遠ざけるなど,全体目標関数に対する適応の効果を無視していることを示す。
一方、IDBD (Sutton, 1992) のような確率的メタ勾配降下アルゴリズムは、全体的な目的関数に関してステップサイズベクトルを明示的に最適化する。
単純な問題では、IDBD は RMSProp と Adam がしないステップサイズベクトルを一貫して改善できることを示す。
2つのアプローチの違いとそれぞれの制限について説明する。
結論として,両アプローチを組み合わせることは,連続学習におけるニューラルネットワークの性能向上に有望な将来方向性となる可能性を示唆する。
関連論文リスト
- Unified Gradient-Based Machine Unlearning with Remain Geometry Enhancement [29.675650285351768]
深層ニューラルネットワークのプライバシーと信頼性を高めるために、機械学習(MU)が登場した。
近似MUは大規模モデルの実用的手法である。
本稿では,最新の学習方向を暗黙的に近似する高速スローパラメータ更新手法を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:17:33Z) - Knowledge Composition using Task Vectors with Learned Anisotropic Scaling [51.4661186662329]
本稿では,パラメータブロックと異なる学習係数を線形に組み合わせ,タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムであるaTLASを紹介する。
このような線形結合は事前学習されたモデルの低内在性を明示的に利用しており、学習可能なパラメータは数係数のみであることを示す。
本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-07-03T07:54:08Z) - How Two-Layer Neural Networks Learn, One (Giant) Step at a Time [24.773974771715956]
本研究では、2層ニューラルネットワークの特徴がターゲット関数の構造にどのように適応するかを理論的に検討する。
バッチサイズと複数の(しかし、有限個の)ステップの影響を比較する。
我々は、$n = MathcalO(d)$のバッチサイズが、階段の性質を満たす複数の目標方向を学習するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:43:44Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。
Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文 参考訳(メタデータ) (2021-09-07T20:19:40Z) - Recomposing the Reinforcement Learning Building Blocks with
Hypernetworks [19.523737925041278]
一次ネットワークが条件付き動的ネットワークの重みを決定することを示す。
このアプローチは勾配近似を改善し、学習ステップの分散を低減する。
我々は、RL(TD3とSAC)とMeta-RL(MAMLとPEARL)の両方において、異なる移動タスクと異なるアルゴリズムで一貫した改善を示す。
論文 参考訳(メタデータ) (2021-06-12T19:43:12Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。