論文の概要: Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.10810v1
- Date: Fri, 16 Feb 2024 16:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 15:00:52.218827
- Title: Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning
- Title(参考訳): 二重双対性:制約付き強化学習のための変分原始双対ポリシー最適化
- Authors: Zihao Li, Boyi Liu, Zhuoran Yang, Zhaoran Wang, Mengdi Wang
- Abstract要約: 本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
- 参考スコア(独自算出の注目度): 132.7040981721302
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We study the Constrained Convex Markov Decision Process (MDP), where the goal
is to minimize a convex functional of the visitation measure, subject to a
convex constraint. Designing algorithms for a constrained convex MDP faces
several challenges, including (1) handling the large state space, (2) managing
the exploration/exploitation tradeoff, and (3) solving the constrained
optimization where the objective and the constraint are both nonlinear
functions of the visitation measure. In this work, we present a model-based
algorithm, Variational Primal-Dual Policy Optimization (VPDPO), in which
Lagrangian and Fenchel duality are implemented to reformulate the original
constrained problem into an unconstrained primal-dual optimization. Moreover,
the primal variables are updated by model-based value iteration following the
principle of Optimism in the Face of Uncertainty (OFU), while the dual
variables are updated by gradient ascent. Moreover, by embedding the visitation
measure into a finite-dimensional space, we can handle large state spaces by
incorporating function approximation. Two notable examples are (1) Kernelized
Nonlinear Regulators and (2) Low-rank MDPs. We prove that with an optimistic
planning oracle, our algorithm achieves sublinear regret and constraint
violation in both cases and can attain the globally optimal policy of the
original constrained problem.
- Abstract(参考訳): 本研究では,来訪測度の凸汎関数を最小化することを目的とした制約付き凸マルコフ決定過程(mdp)について検討する。
制約付き凸MDPの設計アルゴリズムは,(1)大局的な状態空間の処理,(2)探索/探索トレードオフの管理,(3)目的と制約がともに訪問尺度の非線形関数である制約付き最適化の解決など,いくつかの課題に直面している。
本研究では,モデルに基づくアルゴリズムであるVPDPOを提案する。そこでは,ラグランジアンとフェンシェルの双対性を実装し,元の制約された問題を非制約の原始双対最適化に変換する。
さらに、主変数は不確実性に直面した楽観主義(ofu)の原理に従ってモデルベース値反復によって更新され、双対変数は勾配上昇によって更新される。
さらに、訪問測度を有限次元空間に埋め込むことで、関数近似を組み込むことで大きな状態空間を扱うことができる。
2つの顕著な例は(1)核化非線形レギュレータと(2)低ランクmdpである。
我々は,楽観的な計画オラクルを用いて,両ケースのサブ線形後悔と制約違反を実現し,元の制約問題に対する世界的最適ポリシーを達成できることを証明した。
関連論文リスト
- Learning Constrained Optimization with Deep Augmented Lagrangian Methods [60.94111369773497]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Primal-dual regression approach for Markov decision processes with
general state and action space [0.30458514384586394]
我々は,有限時間MDPを一般状態と行動空間で解くための回帰に基づく原始双対マーチンゲールアプローチを開発した。
その結果,提案手法は値関数の高次および低次偏差近似の構築を可能にし,最適ポリシに対する厳密な近似を提供する。
論文 参考訳(メタデータ) (2022-10-01T11:48:22Z) - Convergence and sample complexity of natural policy gradient primal-dual
methods for constrained MDPs [24.582720609592464]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - Algorithm for Constrained Markov Decision Process with Linear
Convergence [55.41644538483948]
エージェントは、そのコストに対する複数の制約により、期待される累積割引報酬を最大化することを目的としている。
エントロピー正規化ポリシーとベイダの二重化という2つの要素を統合した新しい双対アプローチが提案されている。
提案手法は(線形速度で)大域的最適値に収束することが示されている。
論文 参考訳(メタデータ) (2022-06-03T16:26:38Z) - Policy-based Primal-Dual Methods for Convex Constrained Markov Decision
Processes [9.262157005505221]
本稿では, 目標を凹凸とし, 速度-作用分布の制約を凸凸とする改良された凸拘束決定(CMDP)を導入する。
本研究では,訪問分布に強い目的がある場合に,悲観的状態制約違反が達成可能であることを示す。
論文 参考訳(メタデータ) (2022-05-22T02:50:16Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - A Dual Approach to Constrained Markov Decision Processes with Entropy
Regularization [7.483040617090451]
本研究では,ソフトマックスパラメータ化の下で,エントロピー規則化制約付きマルコフ決定過程(CMDP)について検討する。
我々の理論的解析は、ラグランジアン双対函数は滑らかであり、ラグランジアン双対性ギャップは原始性ギャップと制約違反に分解できることを示している。
論文 参考訳(メタデータ) (2021-10-17T21:26:40Z) - Lifting the Convex Conjugate in Lagrangian Relaxations: A Tractable
Approach for Continuous Markov Random Fields [53.31927549039624]
断片的な離散化は既存の離散化問題と矛盾しないことを示す。
この理論を2つの画像のマッチング問題に適用する。
論文 参考訳(メタデータ) (2021-07-13T12:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。