論文の概要: Actively Learning Reinforcement Learning: A Stochastic Optimal Control
Approach
- arxiv url: http://arxiv.org/abs/2309.10831v1
- Date: Mon, 18 Sep 2023 18:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 18:13:42.903702
- Title: Actively Learning Reinforcement Learning: A Stochastic Optimal Control
Approach
- Title(参考訳): 強化学習の能動的学習:確率的最適制御アプローチ
- Authors: Mohammad S. Ramadan, Mahmoud A. Hayajnh, Michael T. Tolley, Kyriakos
G. Vamvoudakis
- Abstract要約: 我々は,制御された実験室/シミュレーションと実世界の条件のミスマッチと,最適制御の計算コストの禁止という2つの問題に対処する枠組みを提供する。
我々は、動的プログラミング方程式を解くために強化学習を用いて、両方の問題にアプローチする。
得られた強化学習コントローラは,いくつかの制約に対して安全であり,モデリングの不確実性について積極的に学習することができる。
- 参考スコア(独自算出の注目度): 3.7728340443952577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we provide framework to cope with two problems: (i) the
fragility of reinforcement learning due to modeling uncertainties because of
the mismatch between controlled laboratory/simulation and real-world conditions
and (ii) the prohibitive computational cost of stochastic optimal control. We
approach both problems by using reinforcement learning to solve the stochastic
dynamic programming equation. The resulting reinforcement learning controller
is safe with respect to several types of constraints constraints and it can
actively learn about the modeling uncertainties. Unlike exploration and
exploitation, probing and safety are employed automatically by the controller
itself, resulting real-time learning. A simulation example demonstrates the
efficacy of the proposed approach.
- Abstract(参考訳): 本稿では,2つの問題に対処する枠組みについて述べる。
(i)制御実験・シミュレーションと実環境条件のミスマッチによる不確かさのモデル化による強化学習の脆弱さ
(II)確率的最適制御の禁止的な計算コスト。
我々は、強化学習を用いて両方の問題にアプローチし、確率的動的プログラミング方程式を解く。
得られた強化学習コントローラは,いくつかの制約条件に対して安全であり,モデリングの不確実性について積極的に学習することができる。
探索と搾取とは異なり、探索と安全はコントローラ自身によって自動的に採用され、結果としてリアルタイムで学習される。
シミュレーション例では,提案手法の有効性を示す。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Stable Inverse Reinforcement Learning: Policies from Control Lyapunov Landscapes [4.229902091180109]
実験データからリアプノフ関数を学習するための新しい安定度認証IRL手法を提案する。
関連する制御ポリシーのクローズドフォーム表現を利用することで、CLFの空間を効率的に探索することができる。
我々は,CLFが提供する最適性に関する理論的解析を行い,シミュレーションデータと実世界データの両方を用いて我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-14T16:40:45Z) - Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Adaptive Robust Model Predictive Control via Uncertainty Cancellation [25.736296938185074]
本稿では,動的に重要な不確かさを補う学習に基づく頑健な予測制御アルゴリズムを提案する。
我々は、一定の等価な「推定とキャンセル」制御法に着想を得た、非線形フィードバックポリシーのクラスを最適化する。
論文 参考訳(メタデータ) (2022-12-02T18:54:23Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。