論文の概要: Understanding and Preventing Capacity Loss in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2204.09560v1
- Date: Wed, 20 Apr 2022 15:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 16:31:36.157384
- Title: Understanding and Preventing Capacity Loss in Reinforcement Learning
- Title(参考訳): 強化学習における能力損失の理解と防止
- Authors: Clare Lyle, Mark Rowland, Will Dabney
- Abstract要約: 我々は、非定常予測対象が深層RLエージェントの学習進行を阻止できるメカニズムを同定する。
キャパシティ損失は様々なRLエージェントや環境で発生し、特にスパース・リワードタスクのパフォーマンスにダメージを与えている。
- 参考スコア(独自算出の注目度): 28.52122927103544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reinforcement learning (RL) problem is rife with sources of
non-stationarity, making it a notoriously difficult problem domain for the
application of neural networks. We identify a mechanism by which non-stationary
prediction targets can prevent learning progress in deep RL agents:
\textit{capacity loss}, whereby networks trained on a sequence of target values
lose their ability to quickly update their predictions over time. We
demonstrate that capacity loss occurs in a range of RL agents and environments,
and is particularly damaging to performance in sparse-reward tasks. We then
present a simple regularizer, Initial Feature Regularization (InFeR), that
mitigates this phenomenon by regressing a subspace of features towards its
value at initialization, leading to significant performance improvements in
sparse-reward environments such as Montezuma's Revenge. We conclude that
preventing capacity loss is crucial to enable agents to maximally benefit from
the learning signals they obtain throughout the entire training trajectory.
- Abstract(参考訳): 強化学習(rl)問題には非定常性の源があるため、ニューラルネットワークの応用において、非常に難しい問題領域となっている。
我々は,非定常予測対象が深層rlエージェントの学習進行を防止できるメカニズムを明らかにした: \textit{capacity loss},すなわち,目標値のシーケンスでトレーニングされたネットワークは,時間とともに予測を迅速に更新する能力を失う。
我々は,様々なrlエージェントや環境においてキャパシティ損失が発生し,スパースリワードタスクの性能に特に影響を与えることを実証する。
InFeR(Initial Feature Regularization)という単純な正規化器を,初期化時に特徴のサブ空間をその値に回帰することで,モンテズマのRevengeのような疎逆環境において大幅な性能向上をもたらすことで,この現象を緩和する。
学習経路全体を通して得られた学習信号からエージェントが最大限の利益を得るためには,キャパシティ損失の防止が不可欠である。
関連論文リスト
- Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Generalization, Mayhems and Limits in Recurrent Proximal Policy
Optimization [1.8570591025615453]
正しく効率的な実装を実現するために、繰り返しを追加する際には、正しくなければならない重要な詳細を強調します。
モータル・メイヘムとシーリング・スポットライトのベンチマークによる再帰的PPOの限界について検討した。
注目すべきは、訓練種子の数を拡大する際のモルタル・マヘムの強い一般化への移行を示すことができることである。
論文 参考訳(メタデータ) (2022-05-23T07:54:15Z) - The Impact of Activation Sparsity on Overfitting in Convolutional Neural
Networks [1.9424280683610138]
オーバーフィッティングは畳み込みニューラルネットワークのトレーニングにおける基本的な課題の1つです。
本研究では,レイヤワイドアクティベーション対策の導出と可視化を目的としたパープレキシティに基づく空間性定義を提案する。
論文 参考訳(メタデータ) (2021-04-13T12:55:37Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - Exploiting the Full Capacity of Deep Neural Networks while Avoiding
Overfitting by Targeted Sparsity Regularization [1.3764085113103217]
オーバーフィッティングは、比較的小さなデータセットでディープニューラルネットワークをトレーニングする際の最も一般的な問題の1つである。
オーバーフィッティング対策として, 新規な対象空間可視化と正規化戦略を提案する。
論文 参考訳(メタデータ) (2020-02-21T11:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。