論文の概要: Guided Exploration in Reinforcement Learning via Monte Carlo Critic
Optimization
- arxiv url: http://arxiv.org/abs/2206.12674v1
- Date: Sat, 25 Jun 2022 15:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 13:21:22.794945
- Title: Guided Exploration in Reinforcement Learning via Monte Carlo Critic
Optimization
- Title(参考訳): モンテカルロ批判最適化による強化学習の指導的探索
- Authors: Igor Kuznetsov
- Abstract要約: 本稿では,ディファレンシャル指向性コントローラを用いて,スケーラブルな探索行動補正を取り入れたガイド付き探索手法を提案する。
次に、ポリシーと批判的修正の両方のために、提案した指向性コントローラを利用した新しいアルゴリズムを提案する。
提案アルゴリズムは,DMControlスイートの様々な問題に対して,現代的な強化学習アルゴリズムより優れている。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The class of deep deterministic off-policy algorithms is effectively applied
to solve challenging continuous control problems. However, current approaches
use random noise as a common exploration method that has several weaknesses,
such as a need for manual adjusting on a given task and the absence of
exploratory calibration during the training process. We address these
challenges by proposing a novel guided exploration method that uses a
differential directional controller to incorporate scalable exploratory action
correction. An ensemble of Monte Carlo Critics that provides exploratory
direction is presented as a controller. The proposed method improves the
traditional exploration scheme by changing exploration dynamically. We then
present a novel algorithm exploiting the proposed directional controller for
both policy and critic modification. The presented algorithm outperforms modern
reinforcement learning algorithms across a variety of problems from DMControl
suite.
- Abstract(参考訳): 決定論的オフポリシーアルゴリズムのクラスは、挑戦的な連続制御問題を解決するために効果的に適用される。
しかし、現在のアプローチでは、与えられたタスクを手動で調整する必要性や、トレーニングプロセス中に探索校正が欠如しているなど、いくつかの弱点がある共通の探索手法としてランダムノイズを用いる。
これらの課題に対処するために,ディファレンシャル指向性コントローラを用いて,スケーラブルな探索行動補正を取り入れたガイド付き探索手法を提案する。
探索方向を提供するモンテカルロ批評家のアンサンブルがコントローラとして提示される。
提案手法は,探索を動的に変化させることにより従来の探査手法を改善する。
次に,提案する方向制御を,方針修正と批判修正の両方に活用する新しいアルゴリズムを提案する。
提案アルゴリズムは,DMControlスイートの様々な問題に対して,現代的な強化学習アルゴリズムより優れている。
関連論文リスト
- Proximal Policy Optimization with Adaptive Exploration [0.0]
本稿では,強化学習の文脈における探索・探索トレードオフについて検討する。
提案する適応探索フレームワークは,最近のエージェントの性能に基づいて,トレーニング中の探索の規模を動的に調整する。
論文 参考訳(メタデータ) (2024-05-07T20:51:49Z) - Model-Based Reinforcement Learning Control of Reaction-Diffusion
Problems [0.0]
強化学習はいくつかのアプリケーション、特にゲームにおいて意思決定に応用されている。
輸送されたフィールドの流れを駆動する2つの新しい報酬関数を導入する。
その結果、これらのアプリケーションで特定の制御をうまく実装できることが判明した。
論文 参考訳(メタデータ) (2024-02-22T11:06:07Z) - Boosting Exploration in Actor-Critic Algorithms by Incentivizing
Plausible Novel States [9.210923191081864]
Actor-critic (AC)アルゴリズムは、モデルなしの深層強化学習アルゴリズムのクラスである。
本稿では,国家の新規性の測定に基づく本質的な報酬による探索を促進する新しい手法を提案する。
可塑性新規状態のインセンティブ付き探索により、ACアルゴリズムはサンプル効率を向上し、従って訓練性能を向上させることができる。
論文 参考訳(メタデータ) (2022-10-01T07:07:11Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z) - Active Learning for Gaussian Process Considering Uncertainties with
Application to Shape Control of Composite Fuselage [7.358477502214471]
ガウス過程に不確実性のある2つの新しい能動学習アルゴリズムを提案する。
提案手法は不確実性の影響を取り入れ,予測性能の向上を実現する。
本手法は, 複合胴体の自動形状制御における予測モデルの改善に応用されている。
論文 参考訳(メタデータ) (2020-04-23T02:04:53Z) - Average Reward Adjusted Discounted Reinforcement Learning:
Near-Blackwell-Optimal Policies for Real-World Applications [0.0]
強化学習は、与えられたマルコフ決定プロセスの最適な定常ポリシーを見つけることを目的としている。
本稿では,広く適用されている標準割引強化学習フレームワークについて,理論的考察を行う。
我々はブラックウェル-最適強化学習アルゴリズムを新たに構築する。
論文 参考訳(メタデータ) (2020-04-02T08:05:18Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。