論文の概要: Reverb: A Framework For Experience Replay
- arxiv url: http://arxiv.org/abs/2102.04736v1
- Date: Tue, 9 Feb 2021 10:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:12:51.480291
- Title: Reverb: A Framework For Experience Replay
- Title(参考訳): Reverb: エクスペリエンスのリプレイのためのフレームワーク
- Authors: Albin Cassirer, Gabriel Barth-Maron, Eugene Brevdo, Sabela Ramos, Toby
Boyd, Thibault Sottiaux, Manuel Kroiss
- Abstract要約: 強化学習(Reinforcement Learning, RL)における経験リプレイに特化したシステムReverbを紹介する。
フレキシブルなAPIは、リプレイバッファを簡単かつ正確に設定するためのツールを提供する。
本稿では,Reverbのコア設計について述べるとともに,その適用例を示し,Reverbの性能特性の実証結果を提供する。
- 参考スコア(独自算出の注目度): 3.559187176800106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central component of training in Reinforcement Learning (RL) is Experience:
the data used for training. The mechanisms used to generate and consume this
data have an important effect on the performance of RL algorithms.
In this paper, we introduce Reverb: an efficient, extensible, and easy to use
system designed specifically for experience replay in RL. Reverb is designed to
work efficiently in distributed configurations with up to thousands of
concurrent clients.
The flexible API provides users with the tools to easily and accurately
configure the replay buffer. It includes strategies for selecting and removing
elements from the buffer, as well as options for controlling the ratio between
sampled and inserted elements. This paper presents the core design of Reverb,
gives examples of how it can be applied, and provides empirical results of
Reverb's performance characteristics.
- Abstract(参考訳): Reinforcement Learning (RL) におけるトレーニングの中心的なコンポーネントは Experience: トレーニングに使用されるデータである。
このデータの生成と消費に使用されるメカニズムは、RLアルゴリズムの性能に重要な影響を及ぼす。
本稿では,RLでの経験的リプレイ用に設計された,効率的で拡張性があり,使いやすいシステムであるReverbを紹介する。
Reverbは、最大数千の同時クライアントを持つ分散構成で効率的に動作するように設計されている。
フレキシブルなAPIは、リプレイバッファを簡単かつ正確に設定するためのツールを提供する。
バッファから要素を選択し削除する戦略や、サンプリングされた要素と挿入された要素の比率を制御するオプションが含まれている。
本稿では,Reverbのコア設計について述べるとともに,その適用例を示し,Reverbの性能特性の実証結果を提供する。
関連論文リスト
- Class-Wise Buffer Management for Incremental Object Detection: An
Effective Buffer Training Strategy [11.109975137910881]
クラスインクリメンタル学習は、既存のモデルに目に見えないクラスインスタンスを継続的に追加する際に発生する問題を解決することを目的としている。
オブジェクト検出に最適化されたリプレイバッファを生成する効果的なバッファトレーニング戦略(eBTS)を導入する。
論文 参考訳(メタデータ) (2023-12-14T17:10:09Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Associative Memory Based Experience Replay for Deep Reinforcement
Learning [6.117098064452361]
優先順位付けされたエクスペリエンスリプレイ(PER)は、DRLエージェントに強力で広くデプロイされていることが証明されている。
PERは、頻繁で不規則なメモリアクセスのために、重大な遅延オーバーヘッドを発生させる。
本稿では,連想メモリ(AM)ベースのPER,AMPERをAMフレンドリな優先サンプリング操作で設計するハードウェア・ソフトウェア共同設計手法を提案する。
論文 参考訳(メタデータ) (2022-07-16T00:12:12Z) - Look Back When Surprised: Stabilizing Reverse Experience Replay for
Neural Approximation [7.6146285961466]
最近開発された理論上は厳格なリバース・エクスペリエンス・リプレイ(RER)について考察する。
実験を通して、様々なタスクにおけるPER(Preferd Experience Replay)のようなテクニックよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-06-07T10:42:02Z) - Functional Regularization for Reinforcement Learning via Learned Fourier
Features [98.90474131452588]
本稿では、入力を学習されたフーリエベースに埋め込むことにより、深層強化学習のための簡単なアーキテクチャを提案する。
その結果、状態ベースと画像ベースの両方のRLのサンプル効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-12-06T18:59:52Z) - Large Batch Experience Replay [22.473676537463607]
優先体験リプレイの新たな理論的基礎を紹介する。
LaBERは、リプレイバッファをサンプリングする簡単で効率的な方法である。
論文 参考訳(メタデータ) (2021-10-04T15:53:13Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文 参考訳(メタデータ) (2021-02-22T19:29:18Z) - Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。
BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。
複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文 参考訳(メタデータ) (2021-02-11T12:00:24Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。