論文の概要: Revisiting Experience Replayable Conditions
- arxiv url: http://arxiv.org/abs/2402.10374v1
- Date: Thu, 15 Feb 2024 23:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 18:08:41.275207
- Title: Revisiting Experience Replayable Conditions
- Title(参考訳): 体験再生可能な条件の再検討
- Authors: Taisuke Kobayashi
- Abstract要約: 本論文は、より厳格な「経験再現性条件」(ERC)を再考する。
ERCを満たすために既存のアルゴリズムを変更する方法を提案する。
数値シミュレーションにより,提案した安定化手法により,ERが有利なアクタ批判アルゴリズムであるオン・ポリティクスに適用可能であることを確認した。
- 参考スコア(独自算出の注目度): 6.20048328543366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experience replay (ER) used in (deep) reinforcement learning is considered to
be applicable only to off-policy algorithms. However, there have been some
cases in which ER has been applied for on-policy algorithms, suggesting that
off-policyness might be a sufficient condition for applying ER. This paper
reconsiders more strict "experience replayable conditions" (ERC) and proposes
the way of modifying the existing algorithms to satisfy ERC. To this end,
instability of policy improvements is assumed to be a key in ERC. The
instability factors are revealed from the viewpoint of metric learning as i)
repulsive forces from negative samples and ii) replays of inappropriate
experiences. Accordingly, the corresponding stabilization tricks are derived.
As a result, it is confirmed through numerical simulations that the proposed
stabilization tricks make ER applicable to an advantage actor-critic, an
on-policy algorithm. In addition, its learning performance is comparable to
that of a soft actor-critic, a state-of-the-art off-policy algorithm.
- Abstract(参考訳): 深い)強化学習で使われる経験リプレイ(er)は、オフポリシーアルゴリズムにのみ適用できると考えられている。
しかし、ERがオン・ポリティクス・アルゴリズムに応用されたケースはいくつかあり、非政治性はERを適用するのに十分な条件である可能性が示唆されている。
本稿では,より厳密なERC(experience replayable conditions)を再考し,ERCを満たすために既存のアルゴリズムを変更する方法を提案する。
この目的のために、政策改善の不安定性がERCの鍵であると仮定される。
計量学習の観点から不安定因子が明らかにされる
一 負の試料からの反発力及び
二 不適切な経験の再生
これにより、対応する安定化トリックが導出される。
その結果, 提案する安定化手法が, アドバンテージ・アクタ-クリティック, オンポリシーアルゴリズムに適用可能であることを数値シミュレーションにより確認した。
さらに、その学習性能は、最先端のオフ・ポリシーアルゴリズムであるsoft actor-criticに匹敵する。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Distillation Policy Optimization [5.439020425819001]
本研究では,評価と制御の両面において2つのデータソースを調和させるアクタ批判学習フレームワークを提案する。
このフレームワークには、統一利便推定器(UAE)と残留基線を含む分散還元機構が組み込まれている。
以上の結果から,オンラインアルゴリズムのサンプル効率は大幅に向上し,非政治的アプローチとのギャップを効果的に埋めることができた。
論文 参考訳(メタデータ) (2023-02-01T15:59:57Z) - On the Reuse Bias in Off-Policy Reinforcement Learning [28.29153543457396]
Reuse Biasは、評価と最適化のためのリプレイバッファの再利用によって生じる、政治外の評価のバイアスである。
本稿では,リプレイバッファのデータによる現在の政策の非政治的評価と最適化が,目的を過大評価する結果となることを示す。
本稿では,新しいBIRIS(Bias-Regularized Importance Smpling)フレームワークと,Reuse Biasの悪影響を軽減する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T06:20:36Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。
VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。