論文の概要: A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement
Learning with Provable Convergence
- arxiv url: http://arxiv.org/abs/2306.06402v1
- Date: Sat, 10 Jun 2023 10:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 19:16:34.557939
- Title: A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement
Learning with Provable Convergence
- Title(参考訳): 確率収束を伴う制約付き強化学習のための1ループディープアクター・クライブアルゴリズム
- Authors: Kexuan Wang, An Liu, and Baishuo Liu
- Abstract要約: Deep Actorriticアルゴリズムは、ActorriticとDeep Neural Network(DNN)を組み合わせる
本稿では,一般対話のための単一ループアクタ・クライブアルゴリズムを提案する。
SL-Criticアルゴリズムは、優れた学習近似と優れた性能に収束することを示す。
- 参考スコア(独自算出の注目度): 8.191815417711194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstract -- Deep Actor-Critic algorithms, which combine Actor-Critic with
deep neural network (DNN), have been among the most prevalent reinforcement
learning algorithms for decision-making problems in simulated environments.
However, the existing deep Actor-Critic algorithms are still not mature to
solve realistic problems with non-convex stochastic constraints and high cost
to interact with the environment. In this paper, we propose a single-loop deep
Actor-Critic (SLDAC) algorithmic framework for general constrained
reinforcement learning (CRL) problems. In the actor step, the constrained
stochastic successive convex approximation (CSSCA) method is applied to handle
the non-convex stochastic objective and constraints. In the critic step, the
critic DNNs are only updated once or a few finite times for each iteration,
which simplifies the algorithm to a single-loop framework (the existing works
require a sufficient number of updates for the critic step to ensure a good
enough convergence of the inner loop for each iteration). Moreover, the
variance of the policy gradient estimation is reduced by reusing observations
from the old policy. The single-loop design and the observation reuse
effectively reduce the agent-environment interaction cost and computational
complexity. In spite of the biased policy gradient estimation incurred by the
single-loop design and observation reuse, we prove that the SLDAC with a
feasible initial point can converge to a Karush-Kuhn-Tuker (KKT) point of the
original problem almost surely. Simulations show that the SLDAC algorithm can
achieve superior performance with much lower interaction cost.
- Abstract(参考訳): Abstract -- Deep Actor-Criticアルゴリズムは、Actor-CriticとDeep Neural Network(DNN)を組み合わせることで、シミュレーション環境における意思決定問題に対する最も一般的な強化学習アルゴリズムのひとつだ。
しかし、既存のディープアクター・クライブアルゴリズムは、非凸確率制約と環境との相互作用に高いコストで現実的な問題を解くためにまだ成熟していない。
本稿では,一般制約強化学習(CRL)問題に対する単一ループディープアクター・クリティカル(SLDAC)アルゴリズムフレームワークを提案する。
アクターステップでは、制約付き確率連続凸近似(CSSCA)法を適用し、非凸確率目標と制約を扱う。
批評家のステップでは、批評家のDNNはイテレーション毎に1回または数回だけ更新され、アルゴリズムをシングルループフレームワークに単純化する(既存の作業では、各イテレーションのインナーループの十分な収束を保証するために、批評家のステップに対して十分な数の更新が必要である)。
さらに、旧方針からの観測を再利用することにより、政策勾配推定のばらつきを低減する。
単一ループ設計と観察再利用により,エージェント-環境相互作用コストと計算複雑性を効果的に低減できる。
単一ループ設計と観測再利用によって生じる偏りのある政策勾配の推定にも拘わらず,本問題の始点を持つSLDACがKKT(Karush-Kuhn-Tuker)点にほぼ確実に収束できることを示す。
シミュレーションにより、sldacアルゴリズムはより低い相互作用コストで優れた性能が得られることが示された。
関連論文リスト
- WARP-LCA: Efficient Convolutional Sparse Coding with Locally Competitive Algorithm [1.4186974630564675]
WARP-LCAは,従来のLCAに比べて桁違いに収束し,最小限にまで達することを示す。
WARP-LCAは, 深い認識パイプラインに適用した場合, 再現性, 復調性, およびロバスト性において優れた特性を示す。
論文 参考訳(メタデータ) (2024-10-24T14:47:36Z) - On the Global Convergence of Natural Actor-Critic with Two-layer Neural
Network Parametrization [38.32265770020665]
本稿では,ニューラルネットワークを用いた自然なアクター批判アルゴリズムについて検討する。
本研究の目的は,本アルゴリズムの性能特性のより深い理解を実現することにある。
論文 参考訳(メタデータ) (2023-06-18T06:22:04Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - COCO Denoiser: Using Co-Coercivity for Variance Reduction in Stochastic
Convex Optimization [4.970364068620608]
我々は,勾配オラクルによって出力される雑音の推定値を改善するために,凸性およびL平滑性を利用する。
問合せ点の数と近さの増加は、より良い勾配推定に繋がることを示す。
また、SGD、Adam、STRSAGAといった既存のアルゴリズムにCOCOをプラグインすることで、バニラ設定にもCOCOを適用します。
論文 参考訳(メタデータ) (2021-09-07T17:21:09Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Exact Asymptotics for Linear Quadratic Adaptive Control [6.287145010885044]
最も単純な非帯域強化学習問題である線形二次制御(LQAC)について検討する。
ステップワイズ更新LQACアルゴリズムの残差,推定誤差,予測誤差の式を導出する。
安定系と不安定系のシミュレーションにおいて、我々の理論はアルゴリズムの有限サンプル挙動を著しくよく記述している。
論文 参考訳(メタデータ) (2020-11-02T22:43:30Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Non-asymptotic Convergence Analysis of Two Time-scale (Natural)
Actor-Critic Algorithms [58.57004511121862]
アクタークリティカル(AC)とナチュラルアクタークリティカル(NAC)のアルゴリズムは、最適なポリシーを見つけるために2つの方法で実行されることが多い。
2つの時間スケールACは、$mathcalO(epsilon-2.5log3(epsilon-1))$で、$epsilon$-accurateの定常点に達するために、全体のサンプルの複雑さを必要とすることを示す。
我々は,動的にマルコフサンプリングが変化するため,アクターのバイアス誤差をバウンドする新しい手法を開発した。
論文 参考訳(メタデータ) (2020-05-07T15:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。