論文の概要: Score-Aware Policy-Gradient Methods and Performance Guarantees using
Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks
and Queueing Systems
- arxiv url: http://arxiv.org/abs/2312.02804v1
- Date: Tue, 5 Dec 2023 14:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 15:18:45.058440
- Title: Score-Aware Policy-Gradient Methods and Performance Guarantees using
Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks
and Queueing Systems
- Title(参考訳): 局所リアプノフ条件を用いたスコアアウェア政策のグラディエント手法と性能保証:製品型確率ネットワークと待ち行列システムへの応用
- Authors: C\'eline Comte, Matthieu Jonckheere, Jaron Sanders and Albert
Senen-Cerda
- Abstract要約: スコア・アウェア・グラデーションMD(SAGE)と呼ばれるMDPの勾配の新たなファミリーを導入する。
決定の定常分布が指数族に属する場合、SAGEは値-関数推定なしで政策勾配を推定できる。
適切な仮定の下では、適切なポリシーに十分近づき始めた場合に、ポリシー段階の手法が最適なポリシーに大きく収束していることが示される。
- 参考スコア(独自算出の注目度): 1.8749305679160366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic networks and queueing systems often lead to Markov decision
processes (MDPs) with large state and action spaces as well as nonconvex
objective functions, which hinders the convergence of many reinforcement
learning (RL) algorithms. Policy-gradient methods perform well on MDPs with
large state and action spaces, but they sometimes experience slow convergence
due to the high variance of the gradient estimator. In this paper, we show that
some of these difficulties can be circumvented by exploiting the structure of
the underlying MDP. We first introduce a new family of gradient estimators
called score-aware gradient estimators (SAGEs). When the stationary
distribution of the MDP belongs to an exponential family parametrized by the
policy parameters, SAGEs allow us to estimate the policy gradient without
relying on value-function estimation, contrary to classical policy-gradient
methods like actor-critic. To demonstrate their applicability, we examine two
common control problems arising in stochastic networks and queueing systems
whose stationary distributions have a product-form, a special case of
exponential families. As a second contribution, we show that, under appropriate
assumptions, the policy under a SAGE-based policy-gradient method has a large
probability of converging to an optimal policy, provided that it starts
sufficiently close to it, even with a nonconvex objective function and multiple
maximizers. Our key assumptions are that, locally around a maximizer, a
nondegeneracy property of the Hessian of the objective function holds and a
Lyapunov function exists. Finally, we conduct a numerical comparison between a
SAGE-based policy-gradient method and an actor-critic algorithm. The results
demonstrate that the SAGE-based method finds close-to-optimal policies more
rapidly, highlighting its superior performance over the traditional
actor-critic method.
- Abstract(参考訳): 確率的ネットワークとキューシステムはしばしば、多くの強化学習(RL)アルゴリズムの収束を妨げる非凸目的関数と同様に、大きな状態と行動空間を持つマルコフ決定プロセス(MDP)につながる。
政策段階的な手法は、大きな状態と行動空間を持つMDPでよく機能するが、勾配推定器の高分散のため、しばしば緩やかな収束を経験する。
本稿では,基礎となるMDPの構造を活用すれば,これらの困難を回避できることを示す。
まず,スコアアウェア勾配推定器 (SAGE) と呼ばれる勾配推定器を新たに導入する。
政策パラメータによってパラメータ化された指数関数族に属するMPPの定常分布の場合,SAGEでは,アクタークリティカルのような古典的政策段階的な手法とは対照的に,値関数推定に頼ることなく政策勾配を推定できる。
その適用性を示すために,定常分布が積形式を持つ確率ネットワークと待ち行列システムにおいて生じる2つの一般的な制御問題,特に指数関数族について検討する。
第2のコントリビューションとして、適切な仮定の下では、SAGEベースの政策段階的手法に基づく政策は、非凸目的関数や多重最大化関数であっても、最適ポリシーに十分に接近する確率が大きいことを示す。
我々の重要な仮定は、局所的に最大化子の周りには、目的関数のヘッシアンの非退化特性があり、リアプノフ関数が存在するということである。
最後に,SAGEに基づくポリシー勾配法とアクタ批判アルゴリズムの数値比較を行う。
その結果,sageに基づく手法は,従来のアクタ・クリティック法よりも優れた性能を示すため,より早く最適に近い方針を見出すことができた。
関連論文リスト
- Strongly-polynomial time and validation analysis of policy gradient methods [3.722665817361884]
本稿では,有限状態および行動マルコフ決定過程(MDP)と強化学習(RL)のための,優位ギャップ関数と呼ばれる新しい終了基準を提案する。
この利点ギャップ関数をステップサイズルールの設計に組み込むことで、最適ポリシーの定常状態分布に依存しない新しい線形収束率を導出する。
政策勾配法に対してそのような強い収束特性が確立されたのはこれが初めてである。
論文 参考訳(メタデータ) (2024-09-28T18:56:48Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。