論文の概要: Guided Exploration in Reinforcement Learning via Monte Carlo Critic Optimization
- arxiv url: http://arxiv.org/abs/2206.12674v2
- Date: Mon, 6 May 2024 09:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 03:49:02.108820
- Title: Guided Exploration in Reinforcement Learning via Monte Carlo Critic Optimization
- Title(参考訳): モンテカルロ批判最適化による強化学習におけるガイド探索
- Authors: Igor Kuznetsov,
- Abstract要約: 本稿では,モンテカルロ批判のアンサンブルを用いた探索行動補正手法を提案する。
本稿では,提案した探索モジュールをポリシーと批判的修正の両方に活用する新しいアルゴリズムを提案する。
提案アルゴリズムは,DMControlスイートの様々な問題に対して,現代の強化学習アルゴリズムと比較して優れた性能を示す。
- 参考スコア(独自算出の注目度): 1.9580473532948401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The class of deep deterministic off-policy algorithms is effectively applied to solve challenging continuous control problems. Current approaches commonly utilize random noise as an exploration method, which has several drawbacks, including the need for manual adjustment for a given task and the absence of exploratory calibration during the training process. We address these challenges by proposing a novel guided exploration method that uses an ensemble of Monte Carlo Critics for calculating exploratory action correction. The proposed method enhances the traditional exploration scheme by dynamically adjusting exploration. Subsequently, we present a novel algorithm that leverages the proposed exploratory module for both policy and critic modification. The presented algorithm demonstrates superior performance compared to modern reinforcement learning algorithms across a variety of problems in the DMControl suite.
- Abstract(参考訳): 深い決定論的非政治アルゴリズムのクラスは、継続的な制御問題の解決に効果的に適用される。
現在のアプローチでは、与えられたタスクを手動で調整する必要や、トレーニング中の探索校正の欠如など、いくつかの欠点がある探索法としてランダムノイズを利用するのが一般的である。
本稿では,モンテカルロ批判のアンサンブルを探索行動補正の計算に用いる新しいガイド付き探索法を提案し,これらの課題に対処する。
提案手法は探索を動的に調整することで従来の探査手法を強化する。
次に,提案した探索モジュールをポリシーと批判的修正の両方に活用する新しいアルゴリズムを提案する。
提案アルゴリズムは,DMControlスイートの様々な問題に対して,現代の強化学習アルゴリズムと比較して優れた性能を示す。
関連論文リスト
- Proximal Policy Optimization with Adaptive Exploration [0.0]
本稿では,強化学習の文脈における探索・探索トレードオフについて検討する。
提案する適応探索フレームワークは,最近のエージェントの性能に基づいて,トレーニング中の探索の規模を動的に調整する。
論文 参考訳(メタデータ) (2024-05-07T20:51:49Z) - Model-Based Reinforcement Learning Control of Reaction-Diffusion
Problems [0.0]
強化学習はいくつかのアプリケーション、特にゲームにおいて意思決定に応用されている。
輸送されたフィールドの流れを駆動する2つの新しい報酬関数を導入する。
その結果、これらのアプリケーションで特定の制御をうまく実装できることが判明した。
論文 参考訳(メタデータ) (2024-02-22T11:06:07Z) - Boosting Exploration in Actor-Critic Algorithms by Incentivizing
Plausible Novel States [9.210923191081864]
Actor-critic (AC)アルゴリズムは、モデルなしの深層強化学習アルゴリズムのクラスである。
本稿では,国家の新規性の測定に基づく本質的な報酬による探索を促進する新しい手法を提案する。
可塑性新規状態のインセンティブ付き探索により、ACアルゴリズムはサンプル効率を向上し、従って訓練性能を向上させることができる。
論文 参考訳(メタデータ) (2022-10-01T07:07:11Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z) - Active Learning for Gaussian Process Considering Uncertainties with
Application to Shape Control of Composite Fuselage [7.358477502214471]
ガウス過程に不確実性のある2つの新しい能動学習アルゴリズムを提案する。
提案手法は不確実性の影響を取り入れ,予測性能の向上を実現する。
本手法は, 複合胴体の自動形状制御における予測モデルの改善に応用されている。
論文 参考訳(メタデータ) (2020-04-23T02:04:53Z) - Average Reward Adjusted Discounted Reinforcement Learning:
Near-Blackwell-Optimal Policies for Real-World Applications [0.0]
強化学習は、与えられたマルコフ決定プロセスの最適な定常ポリシーを見つけることを目的としている。
本稿では,広く適用されている標準割引強化学習フレームワークについて,理論的考察を行う。
我々はブラックウェル-最適強化学習アルゴリズムを新たに構築する。
論文 参考訳(メタデータ) (2020-04-02T08:05:18Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。