論文の概要: Greedy Actor-Critic: A New Conditional Cross-Entropy Method for Policy
Improvement
- arxiv url: http://arxiv.org/abs/1810.09103v4
- Date: Tue, 28 Feb 2023 23:14:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 04:51:16.189210
- Title: Greedy Actor-Critic: A New Conditional Cross-Entropy Method for Policy
Improvement
- Title(参考訳): Greedy Actor-Critic: 政策改善のための新しい条件付きクロスエントロピー法
- Authors: Samuel Neumann, Sungsu Lim, Ajin Joseph, Yangchen Pan, Adam White,
Martha White
- Abstract要約: 本研究では,クロスエントロピー法(CEM)を入力条件(状態)に拡張したアクタの代替更新について検討する。
この濃度の速度は、アクターよりも遅い速度で集中する提案ポリシーによって制御される。
我々は,アクター更新にCCEMを使用するGreedy ACアルゴリズムが,ソフトアクター・クライブよりも優れ,エントロピー・レギュラー化に対する感度がはるかに低いことを実証的に示す。
- 参考スコア(独自算出の注目度): 31.602912612167856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many policy gradient methods are variants of Actor-Critic (AC), where a value
function (critic) is learned to facilitate updating the parameterized policy
(actor). The update to the actor involves a log-likelihood update weighted by
the action-values, with the addition of entropy regularization for soft
variants. In this work, we explore an alternative update for the actor, based
on an extension of the cross entropy method (CEM) to condition on inputs
(states). The idea is to start with a broader policy and slowly concentrate
around maximal actions, using a maximum likelihood update towards actions in
the top percentile per state. The speed of this concentration is controlled by
a proposal policy, that concentrates at a slower rate than the actor. We first
provide a policy improvement result in an idealized setting, and then prove
that our conditional CEM (CCEM) strategy tracks a CEM update per state, even
with changing action-values. We empirically show that our Greedy AC algorithm,
that uses CCEM for the actor update, performs better than Soft Actor-Critic and
is much less sensitive to entropy-regularization.
- Abstract(参考訳): 多くのポリシー勾配法はActor-Critic (AC)の変種であり、パラメータ化されたポリシー(アクター)の更新を容易にするために値関数(批判)が学習される。
アクターのアップデートには、アクション値の重み付けによるログライクな更新と、ソフトな変種に対するエントロピー正規化の追加が含まれている。
本研究では,入力(状態)を条件とするクロスエントロピー法(cem)の拡張に基づき,アクターの代替更新について検討する。
そのアイデアは、より広範なポリシーから始めて、州ごとのトップパーセンタイルのアクションに対する最大限のアップデートを使って、徐々に最大アクションに集中することだ。
この濃度の速度は、アクターよりも遅いレートで集中する提案ポリシーによって制御される。
まず, 条件付きCEM(CCEM)戦略が, アクション値を変化させた場合でも, 状態ごとのCEM更新を追跡することを実証する。
我々は,アクター更新にCCEMを使用するGreedy ACアルゴリズムが,ソフトアクター・クライブよりも優れ,エントロピー・規則化に対する感度がはるかに低いことを実証的に示す。
関連論文リスト
- ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages [37.12048108122337]
本稿では, アクター批判的深層強化学習におけるベイズ推定の近似に向けてのステップを提案する。
Asynchronous Advantage Actor-Critic (A3C)アルゴリズムの3つの変更によって実装されている。
論文 参考訳(メタデータ) (2023-06-02T11:37:22Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
論文 参考訳(メタデータ) (2021-12-21T11:38:12Z) - Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor
Critic under State Distribution Mismatch [29.02336004872336]
我々は、非政治アクター批評家アルゴリズムのグローバル最適性と収束率を確立する。
私たちの研究は、政策勾配法の最適性に関する既存の研究を超えています。
論文 参考訳(メタデータ) (2021-11-04T16:48:45Z) - Off-Policy Correction for Deep Deterministic Policy Gradient Algorithms
via Batch Prioritized Experience Replay [0.0]
そこで我々は, KL Divergence を用いた新しいアルゴリズム Batch Prioritizing Experience Replay を開発した。
我々は,このアルゴリズムをDeep Deterministic Policy GradientとTwin Delayed Deep Deterministic Policy Gradientと組み合わせ,様々な連続制御タスクで評価する。
論文 参考訳(メタデータ) (2021-11-02T19:51:59Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with
On-Policy Experience [9.06635747612495]
ソフト・アクター・クリティカル(Soft Actor-Critic, SAC)は、アクター・アクター・アクターの強化学習アルゴリズムである。
SACは、期待されるリターンとエントロピーの間のトレードオフを最大化することでポリシーを訓練する。
一連の連続制御ベンチマークタスクで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-09-24T06:46:28Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。