論文の概要: Adaptive Control of Quadratic Costs in Linear Stochastic Differential
Equations
- arxiv url: http://arxiv.org/abs/2109.07630v1
- Date: Thu, 16 Sep 2021 00:08:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-18 04:28:23.830977
- Title: Adaptive Control of Quadratic Costs in Linear Stochastic Differential
Equations
- Title(参考訳): 線形確率微分方程式における二次コストの適応制御
- Authors: Mohamad Kazem Shirani Faradonbeh, Mohamad Sadegh Shirani Faradonbeh
- Abstract要約: 適応制御における標準問題について検討し、未知の連続時間力学系における二次コストを最小化するためのポリシーの設計と分析を行う。
線形時間微分方程式の未知パラメータの学習を含む重要な課題に対処する。
システムの安定性を保証し、後悔の基本的な限界を特定するための厳密な結果を提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a canonical problem in adaptive control; design and analysis of
policies for minimizing quadratic costs in unknown continuous-time linear
dynamical systems. We address important challenges including accuracy of
learning the unknown parameters of the underlying stochastic differential
equation, as well as full analyses of performance degradation due to
sub-optimal actions (i.e., regret). Then, an easy-to-implement algorithm for
balancing exploration versus exploitation is proposed, followed by theoretical
guarantees showing a square-root of time regret bound. Further, we present
tight results for assuring system stability and for specifying fundamental
limits for regret. To establish the presented results, multiple novel technical
frameworks are developed, which can be of independent interests.
- Abstract(参考訳): 適応制御における標準問題, 未知連続時間線形力学系における二次コスト最小化のためのポリシーの設計と解析について検討した。
基礎となる確率微分方程式の未知のパラメータを学習する精度や、下位最適作用(すなわち後悔)による性能低下の完全な解析など、重要な課題に対処する。
次に、探索と搾取のバランスをとるための簡単な実装アルゴリズムを提案し、続いて2乗の時間的後悔の根源を示す理論的保証を示す。
さらに,システムの安定性を保証し,後悔の基本的な限界を特定するための厳密な結果を示す。
提示された結果を確立するために、独立した関心を持つことができる複数の新しい技術フレームワークが開発されている。
関連論文リスト
- Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - Stochastic Reinforcement Learning with Stability Guarantees for Control of Unknown Nonlinear Systems [6.571209126567701]
本稿では,力学の局所線形表現を学習することでシステムを安定化する強化学習アルゴリズムを提案する。
本稿では,いくつかの高次元力学系におけるアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2024-09-12T20:07:54Z) - Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Regret Analysis of Certainty Equivalence Policies in Continuous-Time
Linear-Quadratic Systems [0.0]
本研究では,線形四元数系の正準モデル制御のためのユビキタス強化学習ポリシーの理論的性能保証について検討する。
我々は、時間的後悔境界の平方根を確立し、ランダム化された確実性等価ポリシーが一つの状態軌跡から高速に最適な制御行動を学ぶことを示す。
論文 参考訳(メタデータ) (2022-06-09T11:47:36Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。