論文の概要: Reinforcement learning for linear-convex models with jumps via stability
analysis of feedback controls
- arxiv url: http://arxiv.org/abs/2104.09311v1
- Date: Mon, 19 Apr 2021 13:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 21:40:08.854674
- Title: Reinforcement learning for linear-convex models with jumps via stability
analysis of feedback controls
- Title(参考訳): フィードバック制御の安定性解析による跳躍を伴う線形凸モデルの強化学習
- Authors: Xin Guo, Anran Hu, Yufei Zhang
- Abstract要約: 有限線型時間連続時間地平線学習問題をエピソディックな設定で研究する。
この問題では、未知のジャンプディフプロセスは非平滑凸コストに制御される。
- 参考スコア(独自算出の注目度): 7.969435896173812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study finite-time horizon continuous-time linear-convex reinforcement
learning problems in an episodic setting. In this problem, the unknown linear
jump-diffusion process is controlled subject to nonsmooth convex costs. We show
that the associated linear-convex control problems admit Lipchitz continuous
optimal feedback controls and further prove the Lipschitz stability of the
feedback controls, i.e., the performance gap between applying feedback controls
for an incorrect model and for the true model depends Lipschitz-continuously on
the magnitude of perturbations in the model coefficients; the proof relies on a
stability analysis of the associated forward-backward stochastic differential
equation. We then propose a novel least-squares algorithm which achieves a
regret of the order $O(\sqrt{N\ln N})$ on linear-convex learning problems with
jumps, where $N$ is the number of learning episodes; the analysis leverages the
Lipschitz stability of feedback controls and concentration properties of
sub-Weibull random variables.
- Abstract(参考訳): 有限時間地平線連続時間線形凸強化学習問題をエピソディクス環境で検討する。
この問題では、未知の線形跳躍拡散過程は非平滑凸コストによって制御される。
リプシッツの連続最適フィードバック制御を許容する線形凸制御問題を示し、さらにフィードバック制御のリプシッツ安定性を証明し、すなわち、誤ったモデルに対するフィードバック制御と真のモデルに対するフィードバック制御とのパフォーマンスギャップは、モデル係数の摂動の大きさに連続的に依存し、その証明は関連する前方確率微分方程式の安定性解析に依存することを示した。
そこで,本研究では,ジャンプによる線形凸学習問題に対する1次$o(\sqrt{n\ln n})$の後悔を,フィードバック制御のリプシッツ安定性とサブワイブル確率変数の集中特性を活かした,新たな最小二乗法を提案する。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Stabilizing Extreme Q-learning by Maclaurin Expansion [51.041889588036895]
XQL(Extreme Q-learning)は、ベルマン誤差がガムベル分布に従うという仮定に基づいて損失関数を用いる。
オフラインとオンラインの強化学習環境では、強力なパフォーマンスを示している。
安定度を高めるため,Maclaurin Expanded Extreme Q-learningを提案する。
論文 参考訳(メタデータ) (2024-06-07T12:43:17Z) - On the stability of Lipschitz continuous control problems and its application to reinforcement learning [1.534667887016089]
モデルフリー強化学習におけるハミルトン-ヤコビ-ベルマン方程式(HJB)の重要な安定性特性について考察する。
リプシッツ連続最適制御問題と粘性解フレームワークにおける古典的最適制御問題とのギャップを埋める。
論文 参考訳(メタデータ) (2024-04-20T08:21:25Z) - Learning Over Contracting and Lipschitz Closed-Loops for
Partially-Observed Nonlinear Systems (Extended Version) [1.2430809884830318]
本稿では非線形な部分観測力学系に対する学習に基づく制御のためのポリシーパラメータ化を提案する。
結果のYoula-RENパラメータ化は自動的に安定性(収縮)とユーザチューニング可能な堅牢性(Lipschitz)を満足することを示した。
We found that the Youla-REN are also like to existing learning-based and optimal control method, also ensure stability and exhibiting improve robustness to adversarial disturbances。
論文 参考訳(メタデータ) (2023-04-12T23:55:56Z) - Regret Bounds for Adaptive Nonlinear Control [14.489004143703825]
条件の不確実性を考慮した適応非線形制御のための最初の有限時間後悔境界を証明した。
モデル外乱の完全な知識を持つオラクルコントローラと比較して,一定の等価適応制御に苦しむ後悔は,期待して$widetildeO(sqrtT)$で上界となることを示す。
論文 参考訳(メタデータ) (2020-11-26T03:01:09Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Regret Minimization in Partially Observable Linear Quadratic Control [91.43582419264763]
モデル力学が未知の先行性を持つ場合、部分的に観測可能な線形二次制御系における後悔の問題を考察する。
本稿では, 部分的に観測可能な線形二次制御のために, 後悔を分解し, 終端から終端までの後悔の上限を与える新しい方法を提案する。
論文 参考訳(メタデータ) (2020-01-31T22:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。