論文の概要: Successive Convex Approximation Based Off-Policy Optimization for
Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.12545v1
- Date: Wed, 26 May 2021 13:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:23:40.934768
- Title: Successive Convex Approximation Based Off-Policy Optimization for
Constrained Reinforcement Learning
- Title(参考訳): 連続凸近似に基づく制約強化学習のためのオフポリティ最適化
- Authors: Chang Tian, An Liu, Guang Huang and Wu Luo
- Abstract要約: 本稿では,一般的な制約付き強化学習問題の解法として,凸近似に基づくオフポリティ最適化(SCAOPO)アルゴリズムを提案する。
時変状態分布と非政治学習によるバイアスにもかかわらず、実現可能な初期点を持つSCAOPOはカルーシュ=クーン=タッカー点に確実に収束することができる。
- 参考スコア(独自算出の注目度): 12.523496806744946
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a successive convex approximation based off-policy optimization
(SCAOPO) algorithm to solve the general constrained reinforcement learning
problem, which is formulated as a constrained Markov decision process (CMDP) in
the context of average cost. The SCAOPO is based on solving a sequence of
convex objective/feasibility optimization problems obtained by replacing the
objective and constraint functions in the original problems with convex
surrogate functions. At each iteration, the convex surrogate problem can be
efficiently solved by Lagrange dual method even the policy is parameterized by
a high-dimensional function. Moreover, the SCAOPO enables to reuse old
experiences from previous updates, thereby significantly reducing the
implementation cost when deployed in the real-world engineering systems that
need to online learn the environment. In spite of the time-varying state
distribution and the stochastic bias incurred by the off-policy learning, the
SCAOPO with a feasible initial point can still provably converge to a
Karush-Kuhn-Tucker (KKT) point of the original problem almost surely.
- Abstract(参考訳): 平均コストの文脈でマルコフ決定過程 (CMDP) として定式化される一般制約強化学習問題を解決するために, 連続凸近似に基づくオフポリチ最適化 (SCAOPO) アルゴリズムを提案する。
SCAOPOは、凸代用関数を持つ元の問題における目的関数と制約関数を置き換えることで得られる凸目標/実現可能性最適化問題の列を解くことに基づいている。
各イテレーションにおいて、凸代理問題はラグランジュ双対法で効率的に解けるが、そのポリシーは高次元関数でパラメータ化される。
さらに、SCAOPOは以前の更新から古い体験を再利用できるので、オンラインで環境を学ぶ必要がある現実のエンジニアリングシステムにデプロイする際の実装コストを大幅に削減できます。
時変状態分布と非政治学習によって生じる確率バイアスにもかかわらず、実現可能な初期点を持つSCAOPOは、元の問題のカルシュ=クーン=タッカー点(KKT)にほぼ確実に収束することができる。
関連論文リスト
- A Simulation-Free Deep Learning Approach to Stochastic Optimal Control [12.699529713351287]
最適制御(SOC)における一般問題の解法のためのシミュレーションフリーアルゴリズムを提案する。
既存の手法とは異なり、我々の手法は随伴問題の解を必要としない。
論文 参考訳(メタデータ) (2024-10-07T16:16:53Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - From Inverse Optimization to Feasibility to ERM [11.731853838892487]
パラメータの予測に付加的なコンテキスト情報を利用するコンテキスト逆設定について検討する。
合成および実世界の問題に対する我々のアプローチを実験的に検証し,既存手法と比較して性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-02-27T21:06:42Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Constrained Proximal Policy Optimization [36.20839673950677]
制約付き近似ポリシー最適化(CPPO)という新しい一階法を提案する。
提案手法は,(1)実現可能な領域(E段階)における最適政策分布を計算し,2)E段階(M段階)において得られた最適政策に対して,現在の政策を調整するための第1次更新を行う,という2つのステップで解決するための期待最大化フレームワークを統合する。
複雑で不確実な環境で実施した実証実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T16:33:55Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Constrained Combinatorial Optimization with Reinforcement Learning [0.30938904602244344]
本稿では,RL(Deep Reinforcement Learning)を用いた制約付き最適化問題に対処する枠組みを提案する。
我々は、その定式化における制約に対処するために、Neural Combinatorial Optimization(NCO)理論を拡張した。
その文脈では、ソリューションは環境との相互作用に基づいて反復的に構築されます。
論文 参考訳(メタデータ) (2020-06-22T03:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。