論文の概要: Stable Reinforcement Learning with Unbounded State Space
- arxiv url: http://arxiv.org/abs/2006.04353v1
- Date: Mon, 8 Jun 2020 05:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 00:22:43.833492
- Title: Stable Reinforcement Learning with Unbounded State Space
- Title(参考訳): 非有界状態空間を用いた安定強化学習
- Authors: Devavrat Shah, Qiaomin Xie, Zhi Xu
- Abstract要約: 待ち行列ネットワークにおけるスケジューリングの古典的問題に動機づけられた非有界状態空間による強化学習の問題を考える。
有限、有界、あるいはコンパクトな状態空間のために設計されたエラー計量と同様に伝統的なポリシーは、意味のある性能を保証するために無限のサンプルを必要とする。
我々は「良さ」の概念として安定性を提案し、政策下の状態力学は高い確率で有界な領域に留まるべきである。
- 参考スコア(独自算出の注目度): 27.053432445897016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of reinforcement learning (RL) with unbounded state
space motivated by the classical problem of scheduling in a queueing network.
Traditional policies as well as error metric that are designed for finite,
bounded or compact state space, require infinite samples for providing any
meaningful performance guarantee (e.g. $\ell_\infty$ error) for unbounded state
space. That is, we need a new notion of performance metric. As the main
contribution of this work, inspired by the literature in queuing systems and
control theory, we propose stability as the notion of "goodness": the state
dynamics under the policy should remain in a bounded region with high
probability. As a proof of concept, we propose an RL policy using
Sparse-Sampling-based Monte Carlo Oracle and argue that it satisfies the
stability property as long as the system dynamics under the optimal policy
respects a Lyapunov function. The assumption of existence of a Lyapunov
function is not restrictive as it is equivalent to the positive recurrence or
stability property of any Markov chain, i.e., if there is any policy that can
stabilize the system then it must possess a Lyapunov function. And, our policy
does not utilize the knowledge of the specific Lyapunov function. To make our
method sample efficient, we provide an improved, sample efficient
Sparse-Sampling-based Monte Carlo Oracle with Lipschitz value function that may
be of interest in its own right. Furthermore, we design an adaptive version of
the algorithm, based on carefully constructed statistical tests, which finds
the correct tuning parameter automatically.
- Abstract(参考訳): 待ち行列ネットワークにおけるスケジューリングの古典的問題に動機づけられた非有界状態空間を持つ強化学習(RL)の問題を考える。
有限、有界、あるいはコンパクトな状態空間向けに設計された従来のポリシーとエラーメトリックは、非有界状態空間に対して有意義な性能保証(例えば$\ell_\infty$ error)を提供するために無限のサンプルを必要とする。
つまり、パフォーマンスメトリクスという新しい概念が必要です。
この研究の主な貢献は、キューシステムと制御理論の文献から着想を得たものであり、我々は安定性を「良さ」の概念として提案する: 政策下の状態力学は高い確率で有界な領域に留まるべきである。
概念実証として,Sparse-Sampling-based Monte Carlo Oracle を用いた RL ポリシを提案し,最適ポリシの下でのシステムダイナミクスがリャプノフ関数を尊重する限り,安定性を満足すると主張した。
リャプノフ関数の存在の仮定は、任意のマルコフ連鎖の正の再発や安定性、すなわち、系を安定化できる方針が存在するならば、リャプノフ関数を持つ必要があるため、制限的ではない。
また,我々の方針は,特定のリアプノフ関数の知識を活用しない。
提案手法を効率的にするために,Sparse-Sampling をベースとしたモンテカルロ・オラクルのリプシッツ値関数を改良した,より効率的なサンプルを提供する。
さらに,適切なチューニングパラメータを自動で求める,注意深く構築された統計的テストに基づいて適応型アルゴリズムを設計した。
関連論文リスト
- Performance of NPG in Countable State-Space Average-Cost RL [12.949520455740092]
状態空間が任意に大きい強化学習環境における政策最適化手法を検討する。
モチベーションは、通信ネットワーク、マッチングマーケット、その他のキューシステムにおける制御問題から生じる。
論文 参考訳(メタデータ) (2024-05-30T20:29:52Z) - Learning Over Contracting and Lipschitz Closed-Loops for
Partially-Observed Nonlinear Systems (Extended Version) [1.2430809884830318]
本稿では非線形な部分観測力学系に対する学習に基づく制御のためのポリシーパラメータ化を提案する。
結果のYoula-RENパラメータ化は自動的に安定性(収縮)とユーザチューニング可能な堅牢性(Lipschitz)を満足することを示した。
We found that the Youla-REN are also like to existing learning-based and optimal control method, also ensure stability and exhibiting improve robustness to adversarial disturbances。
論文 参考訳(メタデータ) (2023-04-12T23:55:56Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Youla-REN: Learning Nonlinear Feedback Policies with Robust Stability
Guarantees [5.71097144710995]
本稿では,最近開発されたニューラルネットワークアーキテクチャ上に構築された不確実性システムに対する非線形制御器のパラメータ化について述べる。
提案したフレームワークは、安定性の保証、すなわち、検索空間におけるすべてのポリシーが、契約(グローバルに指数関数的に安定した)クローズドループシステムをもたらすことを保証する。
論文 参考訳(メタデータ) (2021-12-02T13:52:37Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z) - Convergence Guarantees of Policy Optimization Methods for Markovian Jump
Linear Systems [3.3343656101775365]
ガウスニュートン法は, 閉ループ力学を平均的に安定化させる制御器において, 線形速度で MJLS の最適状態フィードバック制御器に収束することを示す。
我々の理論を支持する一例を示す。
論文 参考訳(メタデータ) (2020-02-10T21:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。