論文の概要: Improving Experience Replay with Successor Representation
- arxiv url: http://arxiv.org/abs/2111.14331v1
- Date: Mon, 29 Nov 2021 05:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 16:38:02.929455
- Title: Improving Experience Replay with Successor Representation
- Title(参考訳): 後継表現による経験リプレイの改善
- Authors: Yizhi Yuan, Marcelo Mattar
- Abstract要約: 優先順位付けされた経験の再生は、学習を高速化する強化学習技術である。
神経科学における最近の研究は、生物において、リプレイは利得と必要性の両方によって優先順位付けされていることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prioritized experience replay is a reinforcement learning technique shown to
speed up learning by allowing agents to replay useful past experiences more
frequently. This usefulness is quantified as the expected gain from replaying
the experience, and is often approximated as the prediction error (TD-error)
observed during the corresponding experience. However, prediction error is only
one possible prioritization metric. Recent work in neuroscience suggests that,
in biological organisms, replay is prioritized by both gain and need. The need
term measures the expected relevance of each experience with respect to the
current situation, and more importantly, this term is not currently considered
in algorithms such as deep Q-network (DQN). Thus, in this paper we present a
new approach for prioritizing experiences for replay that considers both gain
and need. We test our approach by considering the need term, quantified as the
Successor Representation, into the sampling process of different reinforcement
learning algorithms. Our proposed algorithms show a significant increase in
performance in benchmarks including the Dyna-Q maze and a selection of Atari
games.
- Abstract(参考訳): priorityd experience replayは、エージェントがより頻繁に有用な過去の体験を再生できるようにすることで、学習をスピードアップするための強化学習テクニックである。
この有用性は、経験の再生による期待値として定量化され、対応する経験中に観測される予測誤差(td-error)として近似されることが多い。
しかし、予測誤差は唯一可能な優先順位付け基準である。
神経科学における最近の研究は、生物ではリプレイが利得とニーズの両方によって優先されることを示唆している。
ニーズ項は、現在の状況に関する各経験の期待される妥当性を測るものであり、より重要なことは、現在ディープQネットワーク(DQN)のようなアルゴリズムでは考慮されていない。
そこで本稿では,利得とニーズの両方を考慮したリプレイ体験の優先順位付け手法を提案する。
我々は,異なる強化学習アルゴリズムのサンプリングプロセスにおいて,後継表現として定量化される必要項を考慮し,本手法を検証した。
提案アルゴリズムは,Dyna-Q迷路やアタリゲームの選択など,ベンチマークのパフォーマンスが著しく向上していることを示す。
関連論文リスト
- Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Detachedly Learn a Classifier for Class-Incremental Learning [11.865788374587734]
本稿では,バニラ体験リプレイ(ER)の失敗は,従来のタスクの不要な再学習と,現在のタスクと以前のタスクとを区別する能力の欠如が原因であることを示す。
本稿では,新しいリプレイ戦略・タスク認識体験リプレイを提案する。
実験の結果,本手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-23T01:35:44Z) - Look Back When Surprised: Stabilizing Reverse Experience Replay for
Neural Approximation [7.6146285961466]
最近開発された理論上は厳格なリバース・エクスペリエンス・リプレイ(RER)について考察する。
実験を通して、様々なタスクにおけるPER(Preferd Experience Replay)のようなテクニックよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-06-07T10:42:02Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Reducing Representation Drift in Online Continual Learning [87.71558506591937]
私たちは、エージェントが制限されたメモリと計算で変化する分布から学ぶ必要があるオンライン連続学習パラダイムを研究します。
この作業では、入ってくるデータストリームに未観測のクラスサンプルが導入されることにより、事前に観測されたデータの表現の変化に焦点を合わせます。
論文 参考訳(メタデータ) (2021-04-11T15:19:30Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。