Fugu-MT 論文翻訳(概要): Reverb: A Framework For Experience Replay

論文の概要: Reverb: A Framework For Experience Replay

arxiv url: http://arxiv.org/abs/2102.04736v1
Date: Tue, 9 Feb 2021 10:03:17 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-10 15:12:51.480291
Title: Reverb: A Framework For Experience Replay
Title（参考訳）: Reverb: エクスペリエンスのリプレイのためのフレームワーク
Authors: Albin Cassirer, Gabriel Barth-Maron, Eugene Brevdo, Sabela Ramos, Toby Boyd, Thibault Sottiaux, Manuel Kroiss
Abstract要約: 強化学習(Reinforcement Learning, RL)における経験リプレイに特化したシステムReverbを紹介する。フレキシブルなAPIは、リプレイバッファを簡単かつ正確に設定するためのツールを提供する。本稿では,Reverbのコア設計について述べるとともに,その適用例を示し,Reverbの性能特性の実証結果を提供する。
参考スコア（独自算出の注目度）: 3.559187176800106
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A central component of training in Reinforcement Learning (RL) is Experience: the data used for training. The mechanisms used to generate and consume this data have an important effect on the performance of RL algorithms. In this paper, we introduce Reverb: an efficient, extensible, and easy to use system designed specifically for experience replay in RL. Reverb is designed to work efficiently in distributed configurations with up to thousands of concurrent clients. The flexible API provides users with the tools to easily and accurately configure the replay buffer. It includes strategies for selecting and removing elements from the buffer, as well as options for controlling the ratio between sampled and inserted elements. This paper presents the core design of Reverb, gives examples of how it can be applied, and provides empirical results of Reverb's performance characteristics.
Abstract（参考訳）: Reinforcement Learning (RL) におけるトレーニングの中心的なコンポーネントは Experience: トレーニングに使用されるデータである。このデータの生成と消費に使用されるメカニズムは、RLアルゴリズムの性能に重要な影響を及ぼす。本稿では,RLでの経験的リプレイ用に設計された,効率的で拡張性があり,使いやすいシステムであるReverbを紹介する。 Reverbは、最大数千の同時クライアントを持つ分散構成で効率的に動作するように設計されている。フレキシブルなAPIは、リプレイバッファを簡単かつ正確に設定するためのツールを提供する。バッファから要素を選択し削除する戦略や、サンプリングされた要素と挿入された要素の比率を制御するオプションが含まれている。本稿では,Reverbのコア設計について述べるとともに,その適用例を示し,Reverbの性能特性の実証結果を提供する。

関連論文リスト

Reliability-Adjusted Prioritized Experience Replay [5.342556166066767]
本稿では,時間差誤差の信頼性の新たな尺度を導入することで,PER(priitized Experience Replay)の拡張を提案する。理論的には、結果の遷移選択アルゴリズムであるReliability-adjusted Prioritized Experience Replay (ReaPER)はPERよりも効率的な学習を可能にする。
論文参考訳（メタデータ） (2025-06-23T10:35:36Z)
Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文参考訳（メタデータ） (2025-03-24T17:51:39Z)
Experience Replay with Random Reshuffling [3.6622737533847936]
教師付き学習では、データセットをエポック毎にシャッフルし、データを逐次的に消費することが一般的であり、これはランダムリシャッフル(RR)と呼ばれる。 RRをリプレイ体験に拡張するサンプリング手法を提案する。提案手法をAtariベンチマークで評価し, 深層強化学習の有効性を実証した。
論文参考訳（メタデータ） (2025-03-04T04:37:22Z)
Reward Prediction Error Prioritisation in Experience Replay: The RPE-PER Method [1.600323605807673]
Reward Predictive Error Prioritised Experience Replay (RPE-PER)を紹介する。 RPE-PERは、RPEに基づいてバッファ内での経験を優先する。本手法では,標準的な批評家ネットワークが生成するQ値に加えて,報酬を予測する批評家ネットワークであるEMCNを用いる。
論文参考訳（メタデータ） (2025-01-30T02:09:35Z)
Class-Wise Buffer Management for Incremental Object Detection: An Effective Buffer Training Strategy [11.109975137910881]
クラスインクリメンタル学習は、既存のモデルに目に見えないクラスインスタンスを継続的に追加する際に発生する問題を解決することを目的としている。オブジェクト検出に最適化されたリプレイバッファを生成する効果的なバッファトレーニング戦略(eBTS)を導入する。
論文参考訳（メタデータ） (2023-12-14T17:10:09Z)
Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文参考訳（メタデータ） (2023-09-06T00:44:29Z)
Associative Memory Based Experience Replay for Deep Reinforcement Learning [6.117098064452361]
優先順位付けされたエクスペリエンスリプレイ(PER)は、DRLエージェントに強力で広くデプロイされていることが証明されている。 PERは、頻繁で不規則なメモリアクセスのために、重大な遅延オーバーヘッドを発生させる。本稿では,連想メモリ(AM)ベースのPER,AMPERをAMフレンドリな優先サンプリング操作で設計するハードウェア・ソフトウェア共同設計手法を提案する。
論文参考訳（メタデータ） (2022-07-16T00:12:12Z)
Look Back When Surprised: Stabilizing Reverse Experience Replay for Neural Approximation [7.6146285961466]
最近開発された理論上は厳格なリバース・エクスペリエンス・リプレイ(RER)について考察する。実験を通して、様々なタスクにおけるPER(Preferd Experience Replay)のようなテクニックよりも優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2022-06-07T10:42:02Z)
Functional Regularization for Reinforcement Learning via Learned Fourier Features [98.90474131452588]
本稿では、入力を学習されたフーリエベースに埋め込むことにより、深層強化学習のための簡単なアーキテクチャを提案する。その結果、状態ベースと画像ベースの両方のRLのサンプル効率が向上することがわかった。
論文参考訳（メタデータ） (2021-12-06T18:59:52Z)
Large Batch Experience Replay [22.473676537463607]
優先体験リプレイの新たな理論的基礎を紹介する。 LaBERは、リプレイバッファをサンプリングする簡単で効率的な方法である。
論文参考訳（メタデータ） (2021-10-04T15:53:13Z)
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文参考訳（メタデータ） (2021-03-04T08:14:10Z)
Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文参考訳（メタデータ） (2021-02-22T19:29:18Z)
Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。 BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文参考訳（メタデータ） (2021-02-11T12:00:24Z)
Learning to Sample with Local and Global Contexts in Experience Replay Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2020-07-14T21:12:56Z)
Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文参考訳（メタデータ） (2020-05-10T06:11:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。