論文の概要: Continuous-action Reinforcement Learning for Playing Racing Games:
Comparing SPG to PPO
- arxiv url: http://arxiv.org/abs/2001.05270v1
- Date: Wed, 15 Jan 2020 12:30:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 05:29:06.957996
- Title: Continuous-action Reinforcement Learning for Playing Racing Games:
Comparing SPG to PPO
- Title(参考訳): レーシングゲームにおける連続動作強化学習:SPGとPPOの比較
- Authors: Mario S. Holubar, Marco A. Wiering
- Abstract要約: OpenAI Gym用の新しいレース環境が導入された。
エージェントはランダムに生成されたレーストラックをナビゲートしながら、車のアクセラレーションとステアリングを制御することを学ぶ必要がある。
2つのアクター批判学習アルゴリズムの異なるバージョンが、この環境でテストされている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, a novel racing environment for OpenAI Gym is introduced. This
environment operates with continuous action- and state-spaces and requires
agents to learn to control the acceleration and steering of a car while
navigating a randomly generated racetrack. Different versions of two
actor-critic learning algorithms are tested on this environment: Sampled Policy
Gradient (SPG) and Proximal Policy Optimization (PPO). An extension of SPG is
introduced that aims to improve learning performance by weighting action
samples during the policy update step. The effect of using experience replay
(ER) is also investigated. To this end, a modification to PPO is introduced
that allows for training using old action samples by optimizing the actor in
log space. Finally, a new technique for performing ER is tested that aims to
improve learning speed without sacrificing performance by splitting the
training into two parts, whereby networks are first trained using state
transitions from the replay buffer, and then using only recent experiences. The
results indicate that experience replay is not beneficial to PPO in continuous
action spaces. The training of SPG seems to be more stable when actions are
weighted. All versions of SPG outperform PPO when ER is used. The ER trick is
effective at improving training speed on a computationally less intensive
version of SPG.
- Abstract(参考訳): 本稿では,OpenAI Gymの新しいレース環境について紹介する。
この環境は連続した行動空間と状態空間で動作し、エージェントはランダムに生成されたレーストラックをナビゲートしながら車の加速とステアリングを制御することを学ぶ必要がある。
2つのアクター批判型学習アルゴリズムの異なるバージョンが、サンプルポリシー勾配(SPG)とプロキシポリシー最適化(PPO)の2つの環境でテストされている。
SPGの拡張は、ポリシー更新段階におけるアクションサンプルの重み付けによる学習性能の向上を目的としている。
また,経験リプレイ(ER)の効果についても検討した。
この目的のために、ログ空間でアクターを最適化することで、古いアクションサンプルを使用したトレーニングを可能にするPPOの変更が導入されている。
最後に,リプレイバッファからの状態遷移を使用してネットワークを最初にトレーニングし,最近の経験のみを使用して,トレーニングを2つの部分に分割することにより,パフォーマンスを犠牲にすることなく学習速度を改善することを目的としたerの新たな手法をテストした。
その結果, 連続行動空間におけるPPOには, 経験リプレイが有用でないことがわかった。
SPGのトレーニングは、重み付けされた場合より安定しているようである。
SPGのすべてのバージョンは、ERを使用するとPPOより優れている。
ERトリックは、計算量が少ないSPGのトレーニング速度を改善するのに有効である。
関連論文リスト
- Hindsight Experience Replay Accelerates Proximal Policy Optimization [0.0]
Hindsight Experience Replay(HER)は、スパース報酬を発行する環境に対する、政治外の強化学習アルゴリズムを加速する。
観測されたゴールのホック後の修正は、オン・ポリティクス・アルゴリズムの仮定に反するので、HERは通常、オン・ポリティクス・アルゴリズムには適用されない。
論文 参考訳(メタデータ) (2024-10-29T20:37:23Z) - A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。
過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。
我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文 参考訳(メタデータ) (2023-12-12T06:35:56Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文 参考訳(メタデータ) (2020-12-16T09:46:58Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Adaptive Experience Selection for Policy Gradient [8.37609145576126]
経験的再生は、サンプル効率を改善するために一般的に使用されるアプローチである。
過去の軌跡を用いた勾配推定器は、通常、高いばらつきを持つ。
統一サンプリングや優先経験リプレイのような経験リプレイのための既存のサンプリング戦略は、勾配推定のばらつきを明示的に制御しようとするものではない。
本稿では,オンライン学習アルゴリズムである適応的経験選択(AES)を提案し,この分散を明示的に最小化する経験サンプリング分布を適応的に学習する。
論文 参考訳(メタデータ) (2020-02-17T13:16:37Z) - Regularized Evolutionary Population-Based Training [11.624954122221562]
本稿では、DNNの重みのトレーニングと損失関数のメタラーニングをインターリーブするEPBT(Population-Based Training)アルゴリズムを提案する。
EPBTは画像分類ベンチマークを高速かつ正確に学習する。
論文 参考訳(メタデータ) (2020-02-11T06:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。