論文の概要: Boosting Exploration in Actor-Critic Algorithms by Incentivizing
Plausible Novel States
- arxiv url: http://arxiv.org/abs/2210.00211v1
- Date: Sat, 1 Oct 2022 07:07:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 17:56:40.902774
- Title: Boosting Exploration in Actor-Critic Algorithms by Incentivizing
Plausible Novel States
- Title(参考訳): 可塑性新状態のインセンティブによるアクター臨界アルゴリズムの探索
- Authors: Chayan Banerjee, Zhiyong Chen, Nasimul Noman
- Abstract要約: Actor-critic (AC)アルゴリズムは、モデルなしの深層強化学習アルゴリズムのクラスである。
本稿では,国家の新規性の測定に基づく本質的な報酬による探索を促進する新しい手法を提案する。
可塑性新規状態のインセンティブ付き探索により、ACアルゴリズムはサンプル効率を向上し、従って訓練性能を向上させることができる。
- 参考スコア(独自算出の注目度): 9.210923191081864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Actor-critic (AC) algorithms are a class of model-free deep reinforcement
learning algorithms, which have proven their efficacy in diverse domains,
especially in solving continuous control problems. Improvement of exploration
(action entropy) and exploitation (expected return) using more efficient
samples is a critical issue in AC algorithms. A basic strategy of a learning
algorithm is to facilitate indiscriminately exploring all of the environment
state space, as well as to encourage exploring rarely visited states rather
than frequently visited one. Under this strategy, we propose a new method to
boost exploration through an intrinsic reward, based on measurement of a
state's novelty and the associated benefit of exploring the state (with regards
to policy optimization), altogether called plausible novelty. With incentivized
exploration of plausible novel states, an AC algorithm is able to improve its
sample efficiency and hence training performance. The new method is verified by
extensive simulations of continuous control tasks of MuJoCo environments on a
variety of prominent off-policy AC algorithms.
- Abstract(参考訳): アクタ-クリティック(ac)アルゴリズムはモデルフリーな深層強化学習アルゴリズムのクラスであり、様々な領域、特に連続制御問題の解法において有効性が証明されている。
より効率的なサンプルを用いた探索(アクションエントロピー)と利用(予測リターン)の改善は、ACアルゴリズムにおいて重要な問題である。
学習アルゴリズムの基本的な戦略は、すべての環境状態空間を無差別に探索し、頻繁に訪れるのではなく、めったに訪れない状態の探索を促進することである。
そこで本研究では,国家の目新しさを計測し,(政策最適化に関して)国家を探索することのメリットを基礎として,内在的な報酬を通じて探索を促進する新しい手法を提案する。
可塑性新規状態のインセンティブ付き探索により、ACアルゴリズムはサンプル効率を向上し、従って訓練性能を向上させることができる。
本手法は,多種多様な外部ACアルゴリズムを用いたMuJoCo環境の連続制御タスクの広範囲なシミュレーションにより検証された。
関連論文リスト
- Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Guided Exploration in Reinforcement Learning via Monte Carlo Critic Optimization [1.9580473532948401]
本稿では,モンテカルロ批判のアンサンブルを用いた探索行動補正手法を提案する。
本稿では,提案した探索モジュールをポリシーと批判的修正の両方に活用する新しいアルゴリズムを提案する。
提案アルゴリズムは,DMControlスイートの様々な問題に対して,現代の強化学習アルゴリズムと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-25T15:39:52Z) - Sample-Efficient, Exploration-Based Policy Optimisation for Routing
Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。
さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。
我々のモデルは様々な経路問題に一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-05-31T09:51:48Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Identifying Co-Adaptation of Algorithmic and Implementational
Innovations in Deep Reinforcement Learning: A Taxonomy and Case Study of
Inference-based Algorithms [15.338931971492288]
我々は、アルゴリズムの革新と実装決定を分離するために、一連の推論に基づくアクター批判アルゴリズムに焦点を当てる。
実装の詳細がアルゴリズムの選択に一致すると、パフォーマンスが大幅に低下します。
結果は、どの実装の詳細がアルゴリズムと共適応され、共進化しているかを示す。
論文 参考訳(メタデータ) (2021-03-31T17:55:20Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。