論文の概要: The Reinforce Policy Gradient Algorithm Revisited
- arxiv url: http://arxiv.org/abs/2310.05000v1
- Date: Sun, 8 Oct 2023 04:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:34:11.569976
- Title: The Reinforce Policy Gradient Algorithm Revisited
- Title(参考訳): 強化ポリシー勾配アルゴリズムの再検討
- Authors: Shalabh Bhatnagar
- Abstract要約: 文献からReinforce Policy gradientアルゴリズムを再検討する。
本稿では,基本アルゴリズムの大幅な拡張を提案する。
この新しいアルゴリズムの収束の証明を提供する。
- 参考スコア(独自算出の注目度): 7.894349646617293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit the Reinforce policy gradient algorithm from the literature. Note
that this algorithm typically works with cost returns obtained over random
length episodes obtained from either termination upon reaching a goal state (as
with episodic tasks) or from instants of visit to a prescribed recurrent state
(in the case of continuing tasks). We propose a major enhancement to the basic
algorithm. We estimate the policy gradient using a function measurement over a
perturbed parameter by appealing to a class of random search approaches. This
has advantages in the case of systems with infinite state and action spaces as
it relax some of the regularity requirements that would otherwise be needed for
proving convergence of the Reinforce algorithm. Nonetheless, we observe that
even though we estimate the gradient of the performance objective using the
performance objective itself (and not via the sample gradient), the algorithm
converges to a neighborhood of a local minimum. We also provide a proof of
convergence for this new algorithm.
- Abstract(参考訳): 我々は,強化ポリシー勾配アルゴリズムを文献から再検討する。
このアルゴリズムは、通常、目標状態(エピソディックタスクの場合のように)に到達したときの終了または所定の再帰状態(継続タスクの場合)への訪問の瞬間から得られるランダムな長さのエピソードで得られるコストのリターンで動作する。
本稿では,基本アルゴリズムの大幅な拡張を提案する。
乱数探索手法のクラスに適応して,摂動パラメータ上の関数測定値を用いてポリシー勾配を推定する。
これは無限の状態と作用空間を持つ系において利点があり、Reinforceアルゴリズムの収束を証明するのに必要となる規則性要件のいくつかを緩和する。
それにもかかわらず、我々は性能目標自体を用いてパフォーマンス目標の勾配を推定するが(サンプル勾配ではなく)、アルゴリズムは局所最小の近傍に収束する。
この新しいアルゴリズムの収束性の証明も提供する。
関連論文リスト
- A Cubic-regularized Policy Newton Algorithm for Reinforcement Learning [9.628032156001073]
立方正則化を取り入れた2つのポリシーニュートンアルゴリズムを提案する。
どちらのアルゴリズムも確率比法を用いて値関数の勾配とヘシアンを推定する。
特に、我々のアルゴリズムのサンプル複雑さが$epsilon$-SOSPを見つけるのに$O(epsilon-3.5)$であり、これは最先端のサンプル複雑性の$O(epsilon-4.5)$よりも改善されている。
論文 参考訳(メタデータ) (2023-04-21T13:43:06Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Structural Estimation of Markov Decision Processes in High-Dimensional
State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。
この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。
本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T00:11:38Z) - Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。
本稿では,完全勾配の必要性を除去する。
集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文 参考訳(メタデータ) (2021-11-26T06:00:44Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。