論文の概要: Neighborhood Mixup Experience Replay: Local Convex Interpolation for
Improved Sample Efficiency in Continuous Control Tasks
- arxiv url: http://arxiv.org/abs/2205.09117v1
- Date: Wed, 18 May 2022 02:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-21 14:42:08.572721
- Title: Neighborhood Mixup Experience Replay: Local Convex Interpolation for
Improved Sample Efficiency in Continuous Control Tasks
- Title(参考訳): 近隣混合体験リプレイ:連続制御作業におけるサンプル効率改善のための局所凸補間
- Authors: Ryan Sander, Wilko Schwarting, Tim Seyde, Igor Gilitschenski, Sertac
Karaman, Daniela Rus
- Abstract要約: Neighborhood Mixup Experience Replay (NMER) は、状態-作用空間における遷移を補間する幾何学的に接地されたリプレイバッファである。
NMERは,ベースライン再生バッファ上で平均94%(TD3)と29%(SAC)のサンプリング効率を向上する。
- 参考スコア(独自算出の注目度): 60.88792564390274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Experience replay plays a crucial role in improving the sample efficiency of
deep reinforcement learning agents. Recent advances in experience replay
propose using Mixup (Zhang et al., 2018) to further improve sample efficiency
via synthetic sample generation. We build upon this technique with Neighborhood
Mixup Experience Replay (NMER), a geometrically-grounded replay buffer that
interpolates transitions with their closest neighbors in state-action space.
NMER preserves a locally linear approximation of the transition manifold by
only applying Mixup between transitions with vicinal state-action features.
Under NMER, a given transition's set of state action neighbors is dynamic and
episode agnostic, in turn encouraging greater policy generalizability via
inter-episode interpolation. We combine our approach with recent off-policy
deep reinforcement learning algorithms and evaluate on continuous control
environments. We observe that NMER improves sample efficiency by an average 94%
(TD3) and 29% (SAC) over baseline replay buffers, enabling agents to
effectively recombine previous experiences and learn from limited data.
- Abstract(参考訳): 深層強化学習エージェントの試料効率向上には,経験的再生が重要な役割を担っている。
近年,Mixup (Zhang et al., 2018) を用いた合成試料生成による試料効率の向上が提案されている。
NMER(Neighborhood Mixup Experience Replay)は、状態-作用空間における近傍の遷移を補間する幾何学的グラウンドのリプレイバッファである。
NMER は遷移多様体の局所線型近似を、ビシナル状態作用を持つ遷移間の混合のみを適用することによって保存する。
NMERの下では、ある遷移の状態行動隣人の集合は動的でエピソード非依存であり、その結果、エピソード間補間による政策の一般化を促進する。
我々はこのアプローチを,最近のオフポリシー深層強化学習アルゴリズムと組み合わせ,連続制御環境の評価を行う。
我々はNMERがベースラインリプレイバッファよりも平均94%(TD3)と29%(SAC)のサンプリング効率を向上させることを観察し、エージェントが過去の経験を効果的に再結合し、限られたデータから学習できるようにする。
関連論文リスト
- CUER: Corrected Uniform Experience Replay for Off-Policy Continuous Deep Reinforcement Learning Algorithms [5.331052581441265]
我々は,他のすべての経験の公平性を考慮しつつ,記憶された経験をサンプリングする新しいアルゴリズム,Corrected Uniform Experience (CUER) を開発した。
CUERは、トレーニング中のポリシーのサンプル効率、最終的なパフォーマンス、安定性の観点から、非政治的な継続的制御アルゴリズムに有望な改善を提供する。
論文 参考訳(メタデータ) (2024-06-13T12:03:40Z) - Frugal Actor-Critic: Sample Efficient Off-Policy Deep Reinforcement
Learning Using Unique Experiences [8.983448736644382]
リプレイバッファの効率的な利用は、非政治アクター-犯罪強化学習(RL)アルゴリズムにおいて重要な役割を担っている。
本稿では,ユニークなサンプルを選択してリプレイバッファに追加することに焦点を当てた,サンプル効率を実現する手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T10:04:00Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。
VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Learning Expected Emphatic Traces for Deep RL [32.984880782688535]
オフポリシーサンプリングと経験リプレイは、サンプル効率を改善し、モデルフリーの時間差学習手法をスケールするための鍵となる。
リプレイと組み合わせることができるマルチステップ強調重み付けと、必要な強調重み付けを学習するための時間反転TD学習アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-07-12T13:14:03Z) - Improving Generalization in Reinforcement Learning with Mixture
Regularization [113.12412071717078]
そこで本研究では,異なるトレーニング環境からの観察を混合してエージェントを訓練する,mixregという簡単なアプローチを提案する。
Mixregはデータの多様性をより効果的に向上し、よりスムーズなポリシーを学ぶのに役立つ。
その結果、mixregは、未確認テスト環境において確立されたベースラインを大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2020-10-21T08:12:03Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。