論文の概要: Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes
- arxiv url: http://arxiv.org/abs/2010.08443v1
- Date: Fri, 16 Oct 2020 15:15:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 22:15:39.671887
- Title: Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes
- Title(参考訳): 非定常マルコフ決定過程における継続作業に対する政策勾配
- Authors: Santiago Paternain, Juan Andres Bazerque and Alejandro Ribeiro
- Abstract要約: 強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
- 参考スコア(独自算出の注目度): 112.38662246621969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning considers the problem of finding policies that
maximize an expected cumulative reward in a Markov decision process with
unknown transition probabilities. In this paper we consider the problem of
finding optimal policies assuming that they belong to a reproducing kernel
Hilbert space (RKHS). To that end we compute unbiased stochastic gradients of
the value function which we use as ascent directions to update the policy. A
major drawback of policy gradient-type algorithms is that they are limited to
episodic tasks unless stationarity assumptions are imposed. Hence preventing
these algorithms to be fully implemented online, which is a desirable property
for systems that need to adapt to new tasks and/or environments in deployment.
The main requirement for a policy gradient algorithm to work is that the
estimate of the gradient at any point in time is an ascent direction for the
initial value function. In this work we establish that indeed this is the case
which enables to show the convergence of the online algorithm to the critical
points of the initial value function. A numerical example shows the ability of
our online algorithm to learn to solve a navigation and surveillance problem,
in which an agent must loop between to goal locations. This example
corroborates our theoretical findings about the ascent directions of subsequent
stochastic gradients. It also shows how the agent running our online algorithm
succeeds in learning to navigate, following a continuing cyclic trajectory that
does not comply with the standard stationarity assumptions in the literature
for non episodic training.
- Abstract(参考訳): 強化学習は、未知の遷移確率を持つマルコフ決定過程において、期待累積報酬を最大化するポリシーを見つける問題を考える。
本稿では,再生核ヒルベルト空間 (rkhs) に属することを前提として,最適方針を求める問題を考える。
その目的のために、我々はポリシーを更新するために上昇方向として使用する値関数の偏りのない確率的勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性仮定を課さない限り、それらはエピソディックタスクに限定されていることである。
したがって、これらのアルゴリズムがオンラインに完全に実装されるのを防ぐことは、新しいタスクやデプロイメント環境に適応する必要があるシステムにとって望ましい特性である。
ポリシー勾配アルゴリズムが機能する主な要件は、任意の時点における勾配の推定が初期値関数の上昇方向であることである。
本研究では、オンラインアルゴリズムを初期値関数の臨界点に収束させることができるのは、この場合であることを示す。
数値的な例は、エージェントが目標地点にループしなければならないナビゲーションと監視の問題を解決するために、オンラインアルゴリズムが学習できることを示しています。
この例は、後続の確率勾配の上昇方向に関する理論的知見を裏付けるものである。
また、オンラインアルゴリズムを実行するエージェントが、非エピソディックトレーニングの文献における標準定常性仮定に従わない継続的な循環軌道に従って、ナビゲートの学習を成功させる方法も示しています。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - The Reinforce Policy Gradient Algorithm Revisited [7.894349646617293]
文献からReinforce Policy gradientアルゴリズムを再検討する。
本稿では,基本アルゴリズムの大幅な拡張を提案する。
この新しいアルゴリズムの収束の証明を提供する。
論文 参考訳(メタデータ) (2023-10-08T04:05:13Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Chaining Value Functions for Off-Policy Learning [22.54793586116019]
本稿では,建設によって収束する非政治予測アルゴリズムの新たなファミリについて論じる。
提案手法は収束し、逆鍵行列の反復分解に対応することを証明した。
Baird氏の例のようなMDPに挑戦するアイデアを実証的に評価し,好意的な結果が得られた。
論文 参考訳(メタデータ) (2022-01-17T15:26:47Z) - Policy Gradient and Actor-Critic Learning in Continuous Time and Space:
Theory and Algorithms [1.776746672434207]
連続時間と空間における強化学習のための政策勾配(PG)について検討する。
本稿では,RLに対するアクタ批判アルゴリズムの2つのタイプを提案し,同時に値関数とポリシーを学習し,更新する。
論文 参考訳(メタデータ) (2021-11-22T14:27:04Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Deep Inverse Q-learning with Constraints [15.582910645906145]
我々は、専門家のポリシーを回復するために、実証行動の根底にあるMDPを解くことしか必要としない新しいアルゴリズムのクラスを導入する。
本稿では,このアルゴリズムを関数近似を用いて連続状態空間に拡張する方法と,対応するアクション値関数を推定する方法を示す。
我々は、Objectworldベンチマーク上で、逆アクション値反復、逆Q-ラーニング、ディープ逆Q-ラーニングと呼ばれる結果のアルゴリズムを評価した。
論文 参考訳(メタデータ) (2020-08-04T17:21:51Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。