論文の概要: Policy Augmentation: An Exploration Strategy for Faster Convergence of
Deep Reinforcement Learning Algorithms
- arxiv url: http://arxiv.org/abs/2102.05249v1
- Date: Wed, 10 Feb 2021 03:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:51:15.313274
- Title: Policy Augmentation: An Exploration Strategy for Faster Convergence of
Deep Reinforcement Learning Algorithms
- Title(参考訳): 政策強化: 深層強化学習アルゴリズムのより高速な収束のための探索戦略
- Authors: Arash Mahyari
- Abstract要約: 本稿では,政策拡張(Policy Augmentation)と呼ばれる革命的アルゴリズムを紹介する。
ポリシー強化は、新しく開発された帰納的行列補完法に基づいている。
提案アルゴリズムは、探索されていない状態-作用ペアの値を増大させ、エージェントが初期エピソードにいる間、エージェントが高値のリターンをもたらすアクションを行うのを助ける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advancements in deep reinforcement learning algorithms, developing an
effective exploration strategy is still an open problem. Most existing
exploration strategies either are based on simple heuristics, or require the
model of the environment, or train additional deep neural networks to generate
imagination-augmented paths. In this paper, a revolutionary algorithm, called
Policy Augmentation, is introduced. Policy Augmentation is based on a newly
developed inductive matrix completion method. The proposed algorithm augments
the values of unexplored state-action pairs, helping the agent take actions
that will result in high-value returns while the agent is in the early
episodes. Training deep reinforcement learning algorithms with high-value
rollouts leads to the faster convergence of deep reinforcement learning
algorithms. Our experiments show the superior performance of Policy
Augmentation. The code can be found at:
https://github.com/arashmahyari/PolicyAugmentation.
- Abstract(参考訳): 深層強化学習アルゴリズムの進歩にもかかわらず、効果的な探索戦略の開発はまだオープンな問題です。
既存の探索戦略の多くは単純なヒューリスティックに基づいているか、環境のモデルを必要とするか、想像力に富んだ経路を生成するために追加のディープニューラルネットワークを訓練する。
本稿では,政策拡張(Policy Augmentation)と呼ばれる革命的アルゴリズムを紹介する。
ポリシー強化は、新たに開発された誘導行列補完法に基づいています。
提案アルゴリズムは、未探索の状態-動作ペアの値を強化し、エージェントが初期エピソードにいる間に高い値を返すアクションをエージェントが取り出すのを助ける。
高値ロールアウトによる深層強化学習アルゴリズムのトレーニングは、深層強化学習アルゴリズムの迅速な収束につながります。
我々の実験は、政策強化の優れた性能を示している。
コードはhttps://github.com/arashmahyari/PolicyAugmentation.comで見ることができる。
関連論文リスト
- Solving Deep Reinforcement Learning Tasks with Evolution Strategies and Linear Policy Networks [0.017476232824732776]
本研究では、勾配に基づく深層強化学習法と比較して、進化戦略がどのように機能するかを考察する。
我々は、3つの勾配に基づく手法の観測から行動までの1つの線形層からなるディープポリシーネットワークとネットワークをベンチマークする。
以上の結果から,Evolution Strategies は,多くの強化学習ベンチマークタスクに対して効果的な線形ポリシーを見出すことができることがわかった。
論文 参考訳(メタデータ) (2024-02-10T09:15:21Z) - Boosted Off-Policy Learning [21.042970740577648]
ログ化された盗聴フィードバックから外部政治学習を行うための最初のブースティングアルゴリズムを提案する。
教師付き学習のための既存の強化手法とは異なり、我々のアルゴリズムはポリシーの期待される報酬の見積を直接最適化する。
本稿では,教師付き学習に基礎学習者を還元する方法を示す。
論文 参考訳(メタデータ) (2022-08-01T21:43:02Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。