Fugu-MT 論文翻訳(概要): Double Duality: Variational Primal-Dual Policy Optimization for Constrained Reinforcement Learning

論文の概要: Double Duality: Variational Primal-Dual Policy Optimization for Constrained Reinforcement Learning

arxiv url: http://arxiv.org/abs/2402.10810v1
Date: Fri, 16 Feb 2024 16:35:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 15:00:52.218827
Title: Double Duality: Variational Primal-Dual Policy Optimization for Constrained Reinforcement Learning
Title（参考訳）: 二重双対性:制約付き強化学習のための変分原始双対ポリシー最適化
Authors: Zihao Li, Boyi Liu, Zhuoran Yang, Zhaoran Wang, Mengdi Wang
Abstract要約: 本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
参考スコア（独自算出の注目度）: 132.7040981721302
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: We study the Constrained Convex Markov Decision Process (MDP), where the goal is to minimize a convex functional of the visitation measure, subject to a convex constraint. Designing algorithms for a constrained convex MDP faces several challenges, including (1) handling the large state space, (2) managing the exploration/exploitation tradeoff, and (3) solving the constrained optimization where the objective and the constraint are both nonlinear functions of the visitation measure. In this work, we present a model-based algorithm, Variational Primal-Dual Policy Optimization (VPDPO), in which Lagrangian and Fenchel duality are implemented to reformulate the original constrained problem into an unconstrained primal-dual optimization. Moreover, the primal variables are updated by model-based value iteration following the principle of Optimism in the Face of Uncertainty (OFU), while the dual variables are updated by gradient ascent. Moreover, by embedding the visitation measure into a finite-dimensional space, we can handle large state spaces by incorporating function approximation. Two notable examples are (1) Kernelized Nonlinear Regulators and (2) Low-rank MDPs. We prove that with an optimistic planning oracle, our algorithm achieves sublinear regret and constraint violation in both cases and can attain the globally optimal policy of the original constrained problem.
Abstract（参考訳）: 本研究では,来訪測度の凸汎関数を最小化することを目的とした制約付き凸マルコフ決定過程(mdp)について検討する。制約付き凸MDPの設計アルゴリズムは,(1)大局的な状態空間の処理,(2)探索/探索トレードオフの管理,(3)目的と制約がともに訪問尺度の非線形関数である制約付き最適化の解決など,いくつかの課題に直面している。本研究では,モデルに基づくアルゴリズムであるVPDPOを提案する。そこでは,ラグランジアンとフェンシェルの双対性を実装し,元の制約された問題を非制約の原始双対最適化に変換する。さらに、主変数は不確実性に直面した楽観主義(ofu)の原理に従ってモデルベース値反復によって更新され、双対変数は勾配上昇によって更新される。さらに、訪問測度を有限次元空間に埋め込むことで、関数近似を組み込むことで大きな状態空間を扱うことができる。 2つの顕著な例は(1)核化非線形レギュレータと(2)低ランクmdpである。我々は,楽観的な計画オラクルを用いて,両ケースのサブ線形後悔と制約違反を実現し,元の制約問題に対する世界的最適ポリシーを達成できることを証明した。

関連論文リスト

Alignment of large language models with constrained learning [93.2264691508005]
本研究では,制約付きアライメント問題に対する最適大言語モデル (LLM) ポリシーの計算問題について検討する。我々はラグランジアン双対性を用いて、ラグランジアンによるポリシーの更新と双対降下による双対変数の更新を交互に交互に行う反復的双対ベースアライメント法を開発する。
論文参考訳（メタデータ） (2025-05-26T01:04:56Z)
Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。 2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文参考訳（メタデータ） (2024-09-24T04:39:47Z)
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文参考訳（メタデータ） (2024-03-06T04:43:22Z)
Primal-dual regression approach for Markov decision processes with general state and action space [0.30458514384586394]
我々は,有限時間MDPを一般状態と行動空間で解くための回帰に基づく原始双対マーチンゲールアプローチを開発した。その結果,提案手法は値関数の高次および低次偏差近似の構築を可能にし,最適ポリシに対する厳密な近似を提供する。
論文参考訳（メタデータ） (2022-10-01T11:48:22Z)
Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文参考訳（メタデータ） (2022-06-06T04:28:04Z)
Algorithm for Constrained Markov Decision Process with Linear Convergence [55.41644538483948]
エージェントは、そのコストに対する複数の制約により、期待される累積割引報酬を最大化することを目的としている。エントロピー正規化ポリシーとベイダの二重化という2つの要素を統合した新しい双対アプローチが提案されている。提案手法は(線形速度で)大域的最適値に収束することが示されている。
論文参考訳（メタデータ） (2022-06-03T16:26:38Z)
Faster Algorithm and Sharper Analysis for Constrained Markov Decision Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文参考訳（メタデータ） (2021-10-20T02:57:21Z)
A Dual Approach to Constrained Markov Decision Processes with Entropy Regularization [7.483040617090451]
本研究では,ソフトマックスパラメータ化の下で,エントロピー規則化制約付きマルコフ決定過程(CMDP)について検討する。我々の理論的解析は、ラグランジアン双対函数は滑らかであり、ラグランジアン双対性ギャップは原始性ギャップと制約違反に分解できることを示している。
論文参考訳（メタデータ） (2021-10-17T21:26:40Z)
A Stochastic Composite Augmented Lagrangian Method For Reinforcement Learning [9.204659134755795]
深層強化学習のための線形プログラミング(LP)の定式化について検討する。拡張ラグランジアン法は、LPの解法において二重サンプリング障害に悩まされる。深層パラメタライズされたラグランジアン法を提案する。
論文参考訳（メタデータ） (2021-05-20T13:08:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。