論文の概要: Large Batch Experience Replay
- arxiv url: http://arxiv.org/abs/2110.01528v1
- Date: Mon, 4 Oct 2021 15:53:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:24:15.352653
- Title: Large Batch Experience Replay
- Title(参考訳): 大きなバッチ体験のリプレイ
- Authors: Thibault Lahire, Matthieu Geist, Emmanuel Rachelson
- Abstract要約: 優先体験リプレイの新たな理論的基礎を紹介する。
LaBERは、リプレイバッファをサンプリングする簡単で効率的な方法である。
- 参考スコア(独自算出の注目度): 22.473676537463607
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Several algorithms have been proposed to sample non-uniformly the replay
buffer of deep Reinforcement Learning (RL) agents to speed-up learning, but
very few theoretical foundations of these sampling schemes have been provided.
Among others, Prioritized Experience Replay appears as a hyperparameter
sensitive heuristic, even though it can provide good performance. In this work,
we cast the replay buffer sampling problem as an importance sampling one for
estimating the gradient. This allows deriving the theoretically optimal
sampling distribution, yielding the best theoretical convergence speed.
Elaborating on the knowledge of the ideal sampling scheme, we exhibit new
theoretical foundations of Prioritized Experience Replay. The optimal sampling
distribution being intractable, we make several approximations providing good
results in practice and introduce, among others, LaBER (Large Batch Experience
Replay), an easy-to-code and efficient method for sampling the replay buffer.
LaBER, which can be combined with Deep Q-Networks, distributional RL agents or
actor-critic methods, yields improved performance over a diverse range of Atari
games and PyBullet environments, compared to the base agent it is implemented
on and to other prioritization schemes.
- Abstract(参考訳): 深層強化学習(RL)エージェントの再生バッファを非均一にサンプリングして学習を高速化するアルゴリズムが提案されているが、これらのサンプリングスキームの理論的基礎はごくわずかである。
とりわけ、優先順位付けされたエクスペリエンス リプレイは、優れたパフォーマンスを提供できるにもかかわらず、ハイパーパラメータに敏感なヒューリスティックとして現れる。
本研究では,リプレイバッファサンプリング問題を,勾配を推定するための重要サンプリングとして用いた。
これにより、理論上最適なサンプリング分布が導出され、最良の理論収束速度が得られる。
理想的なサンプリングスキームの知識を生かし、優先順位付けされた体験再生の新たな理論基盤を示す。
最適なサンプリング分布を抽出可能とし,実例でよい結果が得られる近似法をいくつか作成し,リプレイバッファのサンプリング方法としてLaBER(Large Batch Experience Replay)を導入している。
laberは、深いq-ネットワーク、分散rlエージェント、アクタ-クリティックな方法と組み合わせることで、さまざまなatariゲームやpybullet環境において、実装されているベースエージェントや他の優先順位付けスキームと比較して、パフォーマンスが向上する。
関連論文リスト
- Frugal Actor-Critic: Sample Efficient Off-Policy Deep Reinforcement
Learning Using Unique Experiences [8.983448736644382]
リプレイバッファの効率的な利用は、非政治アクター-犯罪強化学習(RL)アルゴリズムにおいて重要な役割を担っている。
本稿では,ユニークなサンプルを選択してリプレイバッファに追加することに焦点を当てた,サンプル効率を実現する手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T10:04:00Z) - An Empirical Study of the Effectiveness of Using a Replay Buffer on Mode
Discovery in GFlowNets [47.82697599507171]
強化学習 (Reinforcement Learning, RL) アルゴリズムは, アクションを反復的にサンプリングし, 期待したリターンを最大化する方法を学習し, 最適なポリシーを学習することを目的としている。
GFlowNetsは、R(x)$の比例サンプリングを近似したポリシーを学ぶことによって、離散集合から様々な候補を$x$で生成するように設計されたアルゴリズムの特別なクラスである。
論文 参考訳(メタデータ) (2023-07-15T01:17:14Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - MAC-PO: Multi-Agent Experience Replay via Collective Priority
Optimization [12.473095790918347]
マルチエージェント問題に対する最適優先体験再生を定式化する名前を提案する。
結果として生じた政策の後悔を最小限にすることで、現在の政策と明確な最適政策とのギャップを狭めることができる。
論文 参考訳(メタデータ) (2023-02-21T03:11:21Z) - Event Tables for Efficient Experience Replay [31.678826875509348]
経験リプレイ(ER)は多くの深層強化学習(RL)システムにおいて重要な要素である。
ERバッファからの一様サンプリングは、収束が遅く不安定な振る舞いを引き起こす可能性がある。
本稿では,ERバッファをイベントテーブルに分割するStratified Smpling from Event Tables (SSET)を紹介する。
論文 参考訳(メタデータ) (2022-11-01T16:38:23Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - Analysis of Stochastic Processes through Replay Buffers [50.52781475688759]
本稿では,プロセスXをリプレイバッファにプッシュし,そのリプレイバッファからプロセスYをランダムに生成するシステムを分析する。
我々の理論的分析は、リプレイバッファが良いデコレータとなる理由について光を当てている。
論文 参考訳(メタデータ) (2022-06-26T11:20:44Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。