論文の概要: Policy Optimization for Stochastic Shortest Path
- arxiv url: http://arxiv.org/abs/2202.03334v1
- Date: Mon, 7 Feb 2022 16:25:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 16:57:36.065959
- Title: Policy Optimization for Stochastic Shortest Path
- Title(参考訳): 確率的最短経路に対する政策最適化
- Authors: Liyu Chen and Haipeng Luo and Aviv Rosenberg
- Abstract要約: 最短経路(SSP)問題に対する政策最適化について検討する。
本研究では,有限ホライゾンモデルを厳密に一般化した目標指向強化学習モデルを提案する。
ほとんどの設定において、我々のアルゴリズムは、ほぼ最適の後悔境界に達することが示されている。
- 参考スコア(独自算出の注目度): 43.2288319750466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy optimization is among the most popular and successful reinforcement
learning algorithms, and there is increasing interest in understanding its
theoretical guarantees. In this work, we initiate the study of policy
optimization for the stochastic shortest path (SSP) problem, a goal-oriented
reinforcement learning model that strictly generalizes the finite-horizon model
and better captures many applications. We consider a wide range of settings,
including stochastic and adversarial environments under full information or
bandit feedback, and propose a policy optimization algorithm for each setting
that makes use of novel correction terms and/or variants of dilated bonuses
(Luo et al., 2021). For most settings, our algorithm is shown to achieve a
near-optimal regret bound.
One key technical contribution of this work is a new approximation scheme to
tackle SSP problems that we call \textit{stacked discounted approximation} and
use in all our proposed algorithms. Unlike the finite-horizon approximation
that is heavily used in recent SSP algorithms, our new approximation enables us
to learn a near-stationary policy with only logarithmic changes during an
episode and could lead to an exponential improvement in space complexity.
- Abstract(参考訳): ポリシー最適化は、最も人気があり、成功した強化学習アルゴリズムの1つであり、その理論的保証を理解することへの関心が高まっている。
本研究では,有限ホライゾンモデルを厳密に一般化し,多くの応用をうまく捉える目標指向強化学習モデルであるstastic shortest path (ssp)問題に対するポリシー最適化の研究を開始する。
本研究は,全情報やバンディットフィードバックの下での確率的および敵対的環境を含む幅広い設定を考察し,新しい補正項および/または拡張ボーナスの変種(luo et al., 2021)を用いた各設定のポリシー最適化アルゴリズムを提案する。
ほとんどの設定において、我々のアルゴリズムは、ほぼ最適の後悔境界を達成する。
この研究の重要な技術的貢献の1つは、我々が \textit{stacked discounted approximation} と呼ぶssp問題に対処するための新しい近似スキームであり、提案するすべてのアルゴリズムで使用します。
最近のsspアルゴリズムで多用されている有限ホライゾン近似とは異なり、新しい近似により、エピソード中の対数変化のみを含む定常に近いポリシーを学習することができ、空間複雑性の指数関数的な改善につながる可能性がある。
関連論文リスト
- e-COP : Episodic Constrained Optimization of Policies [12.854752753529151]
本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。
提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
論文 参考訳(メタデータ) (2024-06-13T20:12:09Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Jointly Learning Environments and Control Policies with Projected
Stochastic Gradient Ascent [3.118384520557952]
この問題を解決するために,政策勾配法とモデルに基づく最適化手法を組み合わせた深層強化学習アルゴリズムを提案する。
本質的に,本アルゴリズムはモンテカルロサンプリングと自動微分によって予測されるリターンの勾配を反復的に近似する。
DEPSは、少なくとも3つの環境では、より少ないイテレーションで高いリターンのソリューションを一貫して得ることができる、ということが示されます。
論文 参考訳(メタデータ) (2020-06-02T16:08:07Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。