論文の概要: Replay For Safety
- arxiv url: http://arxiv.org/abs/2112.04229v1
- Date: Wed, 8 Dec 2021 11:10:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 20:49:48.165685
- Title: Replay For Safety
- Title(参考訳): 安全のためのリプレイ
- Authors: Liran Szlak, Ohad Shamir
- Abstract要約: 経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
- 参考スコア(独自算出の注目度): 51.11953997546418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Experience replay \citep{lin1993reinforcement, mnih2015human} is a widely
used technique to achieve efficient use of data and improved performance in RL
algorithms. In experience replay, past transitions are stored in a memory
buffer and re-used during learning. Various suggestions for sampling schemes
from the replay buffer have been suggested in previous works, attempting to
optimally choose those experiences which will most contribute to the
convergence to an optimal policy. Here, we give some conditions on the replay
sampling scheme that will ensure convergence, focusing on the well-known
Q-learning algorithm in the tabular setting. After establishing sufficient
conditions for convergence, we turn to suggest a slightly different usage for
experience replay - replaying memories in a biased manner as a means to change
the properties of the resulting policy. We initiate a rigorous study of
experience replay as a tool to control and modify the properties of the
resulting policy. In particular, we show that using an appropriate biased
sampling scheme can allow us to achieve a \emph{safe} policy. We believe that
using experience replay as a biasing mechanism that allows controlling the
resulting policy in desirable ways is an idea with promising potential for many
applications.
- Abstract(参考訳): Experience replay \citep{lin 1993reinforcement, mnih2015human} は、データの効率的な利用とRLアルゴリズムの性能向上を実現するために広く使われているテクニックである。
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
リプレイバッファからのサンプリングスキームの様々な提案が過去の研究で提案され、最適ポリシーへの収束に最も寄与するこれらの経験を最適に選択しようとした。
ここでは,表形式でよく知られたq-learningアルゴリズムに着目し,収束を保証するリプレイサンプリングスキームの条件を示す。
コンバージェンスに十分な条件を設定した後、経験リプレイに若干異なる使用法を提案し、その結果のポリシーの性質を変更する手段として、バイアスのある方法で記憶を再生する。
経験リプレイを厳格に研究し,その結果のポリシーの特性を制御・修正するためのツールとした。
特に,適切なバイアスサンプリング方式を用いることで,emph{safe} ポリシーを実現できることを示す。
経験リプレイをバイアス機構として使用することで、結果のポリシーを望ましい方法で制御できるのは、多くのアプリケーションにとって有望な可能性を持つアイデアであると考えています。
関連論文リスト
- Prioritized Generative Replay [121.83947140497655]
本稿では,オンライン体験を再現する生成モデルを用いて,エージェントのメモリの優先的でパラメトリックなバージョンを提案する。
このパラダイムは、生成モデルの一般化能力の恩恵を受ける新しい世代と共に、過去の経験の密度化を可能にする。
このレシピは条件付き拡散モデルと単純な関連関数を用いてインスタンス化できることを示す。
論文 参考訳(メタデータ) (2024-10-23T17:59:52Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0657293044976894]
本稿では,最も関連性の高いサンプルを選択的に再利用し,政策勾配推定を改善する汎用分散還元型体験再生(VRER)フレームワークを提案する。
我々の理論的および実証的研究は、提案したVRERが最適なポリシーの学習を加速し、最先端のポリシー最適化アプローチの性能を高めることができることを示している。
論文 参考訳(メタデータ) (2022-08-25T20:51:00Z) - Neighborhood Mixup Experience Replay: Local Convex Interpolation for
Improved Sample Efficiency in Continuous Control Tasks [60.88792564390274]
Neighborhood Mixup Experience Replay (NMER) は、状態-作用空間における遷移を補間する幾何学的に接地されたリプレイバッファである。
NMERは,ベースライン再生バッファ上で平均94%(TD3)と29%(SAC)のサンプリング効率を向上する。
論文 参考訳(メタデータ) (2022-05-18T02:44:08Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。
VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - Large Batch Experience Replay [22.473676537463607]
優先体験リプレイの新たな理論的基礎を紹介する。
LaBERは、リプレイバッファをサンプリングする簡単で効率的な方法である。
論文 参考訳(メタデータ) (2021-10-04T15:53:13Z) - Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文 参考訳(メタデータ) (2021-02-22T19:29:18Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。