論文の概要: Policy Gradient and Actor-Critic Learning in Continuous Time and Space:
Theory and Algorithms
- arxiv url: http://arxiv.org/abs/2111.11232v1
- Date: Mon, 22 Nov 2021 14:27:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 21:12:55.576360
- Title: Policy Gradient and Actor-Critic Learning in Continuous Time and Space:
Theory and Algorithms
- Title(参考訳): 連続時間と空間における政策グラディエントとアクター・クリティカルラーニング:理論とアルゴリズム
- Authors: Yanwei Jia and Xun Yu Zhou
- Abstract要約: 連続時間と空間における強化学習のための政策勾配(PG)について検討する。
本稿では,RLに対するアクタ批判アルゴリズムの2つのタイプを提案し,同時に値関数とポリシーを学習し,更新する。
- 参考スコア(独自算出の注目度): 1.776746672434207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study policy gradient (PG) for reinforcement learning in continuous time
and space under the regularized exploratory formulation developed by Wang et
al. (2020). We represent the gradient of the value function with respect to a
given parameterized stochastic policy as the expected integration of an
auxiliary running reward function that can be evaluated using samples and the
current value function. This effectively turns PG into a policy evaluation (PE)
problem, enabling us to apply the martingale approach recently developed by Jia
and Zhou (2021) for PE to solve our PG problem. Based on this analysis, we
propose two types of the actor-critic algorithms for RL, where we learn and
update value functions and policies simultaneously and alternatingly. The first
type is based directly on the aforementioned representation which involves
future trajectories and hence is offline. The second type, designed for online
learning, employs the first-order condition of the policy gradient and turns it
into martingale orthogonality conditions. These conditions are then
incorporated using stochastic approximation when updating policies. Finally, we
demonstrate the algorithms by simulations in two concrete examples.
- Abstract(参考訳): 我々は, Wang et al. (2020) による正規化探索定式化の下で, 連続時間と空間における強化学習のための政策勾配(PG)について検討した。
本稿では,与えられたパラメータ化確率ポリシーに対する値関数の勾配を,サンプルと現在の値関数を用いて評価可能な補助ランニング報酬関数の期待積分として表現する。
これにより、PGを政策評価(PE)問題に転換し、最近Jia と Zhou (2021) によって開発されたマーチンゲールアプローチを適用して、当社のPG問題を解決する。
そこで本研究では,数値関数とポリシーを同時にかつ交互に学習し更新する,rlのためのアクタ-クリティックアルゴリズムを提案する。
最初の型は、前述の表現に基づいており、将来の軌跡を含むため、オフラインである。
オンライン学習用に設計された第2のタイプは、ポリシー勾配の1次条件を採用し、マーチンゲール直交条件に変換する。
これらの条件は、ポリシー更新時に確率近似を用いて組み込まれる。
最後に、シミュレーションによるアルゴリズムを2つの具体例で示す。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Actor-Critic learning for mean-field control in continuous time [0.0]
強化学習環境における平均場制御のための政策勾配を連続的に検討する。
エントロピー正規化を伴うランダム化ポリシーを考えることにより、値関数の勾配期待表現を導出する。
線形四進平均場フレームワークでは、ワッサーシュタイン空間上で定義されたアクターと批評家関数の正確なパラメトリションを得る。
論文 参考訳(メタデータ) (2023-03-13T10:49:25Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - The Role of Lookahead and Approximate Policy Evaluation in Policy
Iteration with Linear Value Function Approximation [14.528756508275622]
線形関数近似を用いて値関数を表現する場合、最小限のルックアヘッドとマルチステップリターンが必要であることを示す。
そして、この条件が満たされると、そのような近似ポリシーを用いて得られたポリシーの有限時間性能を特徴付ける。
論文 参考訳(メタデータ) (2021-09-28T01:20:08Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Approximate Midpoint Policy Iteration for Linear Quadratic Control [1.0312968200748118]
モデルベースおよびモデルフリー設定の線形2次最適制御問題を解くために,中間点ポリシー反復アルゴリズムを提案する。
モデルに基づく設定では,2次収束と線形収束を両立させる標準方針反復法やポリシーアルゴリズムよりも優れている立方収束を実現する。
論文 参考訳(メタデータ) (2020-11-28T20:22:10Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Formal Policy Synthesis for Continuous-Space Systems via Reinforcement
Learning [0.0]
有限メモリで決定論的な計算ポリシーに強化学習を適用する方法を示す。
我々は、学習した政策を最適な政策に収束させるために必要な仮定と理論を開発する。
本研究では,4次元のカートポールシステムと6次元のボート運転問題に対するアプローチを実証する。
論文 参考訳(メタデータ) (2020-05-04T08:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。