論文の概要: Actively Learning Reinforcement Learning: A Stochastic Optimal Control
Approach
- arxiv url: http://arxiv.org/abs/2309.10831v3
- Date: Mon, 26 Feb 2024 21:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 22:17:12.528151
- Title: Actively Learning Reinforcement Learning: A Stochastic Optimal Control
Approach
- Title(参考訳): 強化学習の能動的学習:確率的最適制御アプローチ
- Authors: Mohammad S. Ramadan, Mahmoud A. Hayajnh, Michael T. Tolley, Kyriakos
G. Vamvoudakis
- Abstract要約: 提案する枠組みは,2つある: (i) 活発な探索と意図的な情報収集を伴う強化学習, (i) ミスマッチのモデル化による状態と不確実性を制御し, (ii) 最適制御の膨大な計算コストを克服する。
我々は、強化学習を用いて最適制御法を達成することにより、両方の目的にアプローチする。
- 参考スコア(独自算出の注目度): 3.7728340443952577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we propose a framework towards achieving two intertwined
objectives: (i) equipping reinforcement learning with active exploration and
deliberate information gathering, such that it regulates state and parameter
uncertainties resulting from modeling mismatches and noisy sensory; and (ii)
overcoming the huge computational cost of stochastic optimal control. We
approach both objectives by using reinforcement learning to attain the
stochastic optimal control law. On one hand, we avoid the curse of
dimensionality prohibiting the direct solution of the stochastic dynamic
programming equation. On the other hand, the resulting stochastic control
inspired reinforcement learning agent admits the behavior of a dual control,
namely, caution and probing, that is, regulating the state estimate together
with its estimation quality. Unlike exploration and exploitation, caution and
probing are employed automatically by the controller in real-time, even after
the learning process is concluded. We use the proposed approach on a numerical
example of a model that belongs to an emerging class in system identification.
We show how, for the dimensionality of the stochastic version of this model,
Dynamic Programming is prohibitive, Model Predictive Control requires an
expensive nonlinear optimization, and a Linear Quadratic Regulator with the
certainty equivalence assumption leads to poor performance and filter
divergence, all contrasting our approach which is shown to be both:
computationally convenient, stabilizing and of an acceptable performance.
- Abstract(参考訳): 本稿では,2つの相互目的を達成するための枠組みを提案する。
一 活発な探索及び故意の情報収集による強化学習を施し、不一致及び騒音感覚のモデル化による状態及びパラメータの不確かさを規制すること。
(ii)確率的最適制御の膨大な計算コストを克服する。
確率的最適制御則を達成するために強化学習を用いて両目的に接近する。
一方、確率的動的プログラム方程式の直接解を禁ずる次元性の呪いを避ける。
一方、確率的制御にインスパイアされた強化学習エージェントは、二重制御の挙動、すなわち注意と調査の振る舞い、すなわち、状態推定をその推定品質とともに制御することを認める。
探索や搾取とは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
提案手法は,システム識別における新たなクラスに属するモデルの数値的な例を用いている。
このモデルの確率的バージョンでは、動的プログラミングは禁じられ、モデル予測制御は高価な非線形最適化を必要とし、確実な等価性の仮定を持つ線形二次レギュレータは性能とフィルタのばらつきを招き、これらは計算上便利で安定化し、許容できる性能の両方を示す我々のアプローチとは対照的である。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Stable Inverse Reinforcement Learning: Policies from Control Lyapunov Landscapes [4.229902091180109]
実験データからリアプノフ関数を学習するための新しい安定度認証IRL手法を提案する。
関連する制御ポリシーのクローズドフォーム表現を利用することで、CLFの空間を効率的に探索することができる。
我々は,CLFが提供する最適性に関する理論的解析を行い,シミュレーションデータと実世界データの両方を用いて我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-14T16:40:45Z) - Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Adaptive Robust Model Predictive Control via Uncertainty Cancellation [25.736296938185074]
本稿では,動的に重要な不確かさを補う学習に基づく頑健な予測制御アルゴリズムを提案する。
我々は、一定の等価な「推定とキャンセル」制御法に着想を得た、非線形フィードバックポリシーのクラスを最適化する。
論文 参考訳(メタデータ) (2022-12-02T18:54:23Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。