Fugu-MT 論文翻訳(概要): Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes

論文の概要: Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes

arxiv url: http://arxiv.org/abs/2506.05953v1
Date: Fri, 06 Jun 2025 10:29:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:43.426446
Title: Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes
Title（参考訳）: マルコフ決定過程における政策勾配による決定論的政策の学習
Authors: Alessandro Montenegro, Leonardo Cesani, Marco Mussi, Matteo Papini, Alberto Maria Metelli,
Abstract要約: 我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
参考スコア（独自算出の注目度）: 59.27926064817273
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Constrained Reinforcement Learning (CRL) addresses sequential decision-making problems where agents are required to achieve goals by maximizing the expected return while meeting domain-specific constraints. In this setting, policy-based methods are widely used thanks to their advantages when dealing with continuous-control problems. These methods search in the policy space with an action-based or a parameter-based exploration strategy, depending on whether they learn the parameters of a stochastic policy or those of a stochastic hyperpolicy. We introduce an exploration-agnostic algorithm, called C-PG, which enjoys global last-iterate convergence guarantees under gradient domination assumptions. Furthermore, under specific noise models where the (hyper)policy is expressed as a stochastic perturbation of the actions or of the parameters of an underlying deterministic policy, we additionally establish global last-iterate convergence guarantees of C-PG to the optimal deterministic policy. This holds when learning a stochastic (hyper)policy and subsequently switching off the stochasticity at the end of training, thereby deploying a deterministic policy. Finally, we empirically validate both the action-based (C-PGAE) and parameter-based (C-PGPE) variants of C-PG on constrained control tasks, and compare them against state-of-the-art baselines, demonstrating their effectiveness, in particular when deploying deterministic policies after training.
Abstract（参考訳）: Constrained Reinforcement Learning (CRL) は、エージェントがドメイン固有の制約を満たしながら期待したリターンを最大化し、目標を達成するためのシーケンシャルな意思決定問題に対処する。この設定では、ポリシーベースの手法は、継続的制御問題に対処する際の利点によって広く使われている。これらの手法は、確率的政策のパラメータを学習するか、確率的超政治のパラメータを学習するかによって、アクションベースまたはパラメータベースの探索戦略を用いて政策空間を探索する。我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは勾配支配仮定の下でのグローバルな最終点収束を保証する。さらに、(ハイパー)ポリティクスが行動の確率的摂動として表される特定のノイズモデルや、根底にある決定主義政策のパラメータとして表現される場合、最適決定主義政策に対するC-PGのグローバルな最終収束保証を確立する。これは、確率的(より過度な)政治を学び、訓練の終わりに確率性をオフにすると、決定論的政策が展開される。最後に,制約制御タスクにおけるC-PGの動作ベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証し,これらを最先端のベースラインと比較した。

関連論文リスト

Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究である。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Fast Policy Learning for Linear Quadratic Control with Entropy Regularization [10.771650397337366]
本稿では,レギュラー化政策勾配 (RPG) と反復政策最適化 (IPO) の2つの新しい政策学習手法を提案し,分析する。正確な政策評価にアクセスできると仮定すると、どちらの手法も正規化されたLQCの最適ポリシーを見つける際に線形に収束することが証明される。
論文参考訳（メタデータ） (2023-11-23T19:08:39Z)
Fast Global Convergence of Natural Policy Gradient Methods with Entropy Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。この結果から, エントロピー正則化の役割を浮き彫りにした。
論文参考訳（メタデータ） (2020-07-13T17:58:41Z)
Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文参考訳（メタデータ） (2020-03-09T13:05:47Z)
Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。 KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文参考訳（メタデータ） (2020-02-17T13:30:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。