論文の概要: Principal Gradient Direction and Confidence Reservoir Sampling for
Continual Learning
- arxiv url: http://arxiv.org/abs/2108.09592v1
- Date: Sat, 21 Aug 2021 23:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 06:20:02.263437
- Title: Principal Gradient Direction and Confidence Reservoir Sampling for
Continual Learning
- Title(参考訳): 連続学習における主勾配方向と信頼貯留層サンプリング
- Authors: Zhiyi Chen and Tong Lin
- Abstract要約: タスクフリーオンライン連続学習は、非IDデータストリーム上の学習者の破滅的な忘れを緩和することを目的としている。
Experience Replay (ER) はSOTA連続学習法であり、他のリプレイ手法のバックボーンアルゴリズムとして広く使われている。
本稿では,ERを特殊な場合とみなすことのできる一般近位勾配フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.883460584034766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task-free online continual learning aims to alleviate catastrophic forgetting
of the learner on a non-iid data stream. Experience Replay (ER) is a SOTA
continual learning method, which is broadly used as the backbone algorithm for
other replay-based methods. However, the training strategy of ER is too simple
to take full advantage of replayed examples and its reservoir sampling strategy
is also suboptimal. In this work, we propose a general proximal gradient
framework so that ER can be viewed as a special case. We further propose two
improvements accordingly: Principal Gradient Direction (PGD) and Confidence
Reservoir Sampling (CRS). In Principal Gradient Direction, we optimize a target
gradient that not only represents the major contribution of past gradients, but
also retains the new knowledge of the current gradient. We then present
Confidence Reservoir Sampling for maintaining a more informative memory buffer
based on a margin-based metric that measures the value of stored examples.
Experiments substantiate the effectiveness of both our improvements and our new
algorithm consistently boosts the performance of MIR-replay, a SOTA ER-based
method: our algorithm increases the average accuracy up to 7.9% and reduces
forgetting up to 15.4% on four datasets.
- Abstract(参考訳): タスクフリーオンライン連続学習は、非IDデータストリーム上の学習者の破滅的な忘れを緩和することを目的としている。
Experience Replay (ER) はSOTA連続学習法であり、他のリプレイ手法のバックボーンアルゴリズムとして広く使われている。
しかし, ERのトレーニング戦略は, リプレイされた例を十分に活用するには単純すぎるため, 貯水池のサンプリング戦略も最適ではない。
本研究では,ERを特別な場合とみなすことのできる一般近位勾配フレームワークを提案する。
さらに,主グラディエント方向(PGD)と信頼性貯留層サンプリング(CRS)の2つの改良点を提案する。
主勾配方向において,過去の勾配の大きな寄与を表すだけでなく,現在の勾配に関する新たな知識も保持する目標勾配を最適化する。
次に、保存されたサンプルの値を測定するマージンベースのメトリックに基づいて、より有益なメモリバッファを維持するための信頼度リザーバサンプリングを示す。
このアルゴリズムは平均精度を7.9%まで向上させ、4つのデータセットで最大15.4%まで忘れてしまうという、soma erベースの手法であるmir-replayの性能を一貫して向上させる。
関連論文リスト
- R-CONV: An Analytical Approach for Efficient Data Reconstruction via Convolutional Gradients [40.209183669098735]
本稿では,畳み込み層の勾配を効率的に利用するための高度なデータ漏洩手法を提案する。
我々の知る限りでは、これは勾配から直接畳み込み層の入力を再構築する最初の分析手法である。
論文 参考訳(メタデータ) (2024-06-06T16:28:04Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Efficient Gradient Estimation via Adaptive Sampling and Importance
Sampling [34.50693643119071]
適応的あるいは重要なサンプリングは、勾配推定におけるノイズを低減する。
本稿では,既存の重要関数をフレームワークに組み込むアルゴリズムを提案する。
計算オーバーヘッドを最小限に抑えた分類・回帰タスクにおける収束性の改善を観察する。
論文 参考訳(メタデータ) (2023-11-24T13:21:35Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Gradient-Matching Coresets for Rehearsal-Based Continual Learning [6.243028964381449]
継続学習(CL)の目標は、学習した知識を忘れずに、機械学習モデルを新しいデータで効率的に更新することである。
広く使われているほとんどのCLメソッドは、新しいデータのトレーニング中に再利用されるデータポイントのリハーサルメモリに依存している。
リハーサルに基づく連続学習のためのコアセット選択法を考案する。
論文 参考訳(メタデータ) (2022-03-28T07:37:17Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - GCR: Gradient Coreset Based Replay Buffer Selection For Continual
Learning [1.911678487931003]
調査対象のオフライン学習環境において,最先端の学習に比べて有意な増加(2%~4%)を示した。
また、オンライン/ストリーミングのCL設定にも効果的に移行し、既存のアプローチよりも最大5%向上しました。
論文 参考訳(メタデータ) (2021-11-18T18:01:57Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。