論文の概要: Deterministic Policies for Constrained Reinforcement Learning in Polynomial Time
- arxiv url: http://arxiv.org/abs/2405.14183v2
- Date: Wed, 30 Oct 2024 22:58:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:56:24.043854
- Title: Deterministic Policies for Constrained Reinforcement Learning in Polynomial Time
- Title(参考訳): 多項式時間における制約付き強化学習のための決定論的政策
- Authors: Jeremy McMahan,
- Abstract要約: 本アルゴリズムは,制約付き強化学習問題に対するほぼ最適決定性ポリシーを効率的に計算する。
我々の研究は、2つの長年の研究にまたがる3つのオープンな疑問に答える。
- 参考スコア(独自算出の注目度): 1.223779595809275
- License:
- Abstract: We present a novel algorithm that efficiently computes near-optimal deterministic policies for constrained reinforcement learning (CRL) problems. Our approach combines three key ideas: (1) value-demand augmentation, (2) action-space approximate dynamic programming, and (3) time-space rounding. Our algorithm constitutes a fully polynomial-time approximation scheme (FPTAS) for any time-space recursive (TSR) cost criteria. A TSR criteria requires the cost of a policy to be computable recursively over both time and (state) space, which includes classical expectation, almost sure, and anytime constraints. Our work answers three open questions spanning two long-standing lines of research: polynomial-time approximability is possible for 1) anytime-constrained policies, 2) almost-sure-constrained policies, and 3) deterministic expectation-constrained policies.
- Abstract(参考訳): 本稿では,制約付き強化学習(CRL)問題に対する近似的決定性ポリシを効率的に計算するアルゴリズムを提案する。
提案手法は,(1)要求値の増大,(2)行動空間近似動的プログラミング,(3)時間空間の丸めという3つの重要なアイデアを組み合わさっている。
提案アルゴリズムは,任意の時間空間再帰(TSR)コスト基準に対する完全多項式時間近似スキーム(FPTAS)を構成する。
TSR基準は、古典的な期待、ほぼ確実、そして常に制約を含む時間と(状態)空間の両方で計算可能となるポリシーのコストを必要とする。
我々の研究は、2つの長年の研究ラインにまたがる3つのオープンな疑問に答える:多項式時間近似は可能である。
1) 制限付き政策
2 ほぼ確実に制限された政策及び
3)決定論的予測制約政策。
関連論文リスト
- Anytime-Constrained Multi-Agent Reinforcement Learning [6.981971551979697]
我々は、任意の時間制約均衡(ACE)に対応する解を持つマルチエージェント設定に、任意の時間制約を導入する。
実効性のあるポリシーの計算的特徴を含む,任意の時間制約付きマルコフゲームに関する包括的理論を提案する。
また、アクション制約付きマルコフゲームに対する効率的な計算の第一理論も、独立に興味を持つかもしれない。
論文 参考訳(メタデータ) (2024-10-31T05:07:01Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Fast Policy Learning for Linear Quadratic Control with Entropy
Regularization [10.771650397337366]
本稿では,レギュラー化政策勾配 (RPG) と反復政策最適化 (IPO) の2つの新しい政策学習手法を提案し,分析する。
正確な政策評価にアクセスできると仮定すると、どちらの手法も正規化されたLQCの最適ポリシーを見つける際に線形に収束することが証明される。
論文 参考訳(メタデータ) (2023-11-23T19:08:39Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - A policy gradient approach for Finite Horizon Constrained Markov Decision Processes [6.682382456607199]
固定時間(有限時間)後に地平線が終了する有限水平設定における制約付きRLのアルゴリズムを提案する。
我々の知る限り、制約付き有限地平線設定のための最初のポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-10T09:52:02Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。