論文の概要: Model-Based Reinforcement Learning for Stochastic Hybrid Systems
- arxiv url: http://arxiv.org/abs/2111.06211v1
- Date: Thu, 11 Nov 2021 14:05:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 15:30:42.719464
- Title: Model-Based Reinforcement Learning for Stochastic Hybrid Systems
- Title(参考訳): 確率ハイブリッドシステムのモデルベース強化学習
- Authors: Hany Abdulsamad and Jan Peters
- Abstract要約: 本稿では、非線形モデリングと制御のハイブリッドシステムビューを採用し、問題に明示的な階層構造を与え、複雑な力学をより単純な局所化単位に分解する。
また,Hb-REPS(Hybrid Realtive Entropy Policy Search)技術を導入し,ハイブリッドシステムの階層的な性質を取り入れ,時間不変なローカルフィードバックコントローラのセットを最適化する。
- 参考スコア(独自算出の注目度): 31.40309093187031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal control of general nonlinear systems is a central challenge in
automation. Data-driven approaches to control, enabled by powerful function
approximators, have recently had great success in tackling challenging robotic
applications. However, such methods often obscure the structure of dynamics and
control behind black-box over-parameterized representations, thus limiting our
ability to understand the closed-loop behavior. This paper adopts a
hybrid-system view of nonlinear modeling and control that lends an explicit
hierarchical structure to the problem and breaks down complex dynamics into
simpler localized units. Therefore, we consider a sequence modeling paradigm
that captures the temporal structure of the data and derive an
expecation-maximization (EM) algorithm that automatically decomposes nonlinear
dynamics into stochastic piecewise affine dynamical systems with nonlinear
boundaries. Furthermore, we show that these time-series models naturally admit
a closed-loop extension that we use to extract locally linear or polynomial
feedback controllers from nonlinear experts via imitation learning. Finally, we
introduce a novel hybrid realtive entropy policy search (Hb-REPS) technique
that incorporates the hierarchical nature of hybrid systems and optimizes a set
of time-invariant local feedback controllers derived from a locally polynomial
approximation of a global value function.
- Abstract(参考訳): 一般的な非線形システムの最適制御は、自動化における中心的な課題である。
強力な関数近似器によって実現されたデータ駆動型制御アプローチは、最近、困難なロボットアプリケーションに取り組むことに成功している。
しかし、そのような手法はしばしばブラックボックスの過度パラメータ化表現の背後にある力学や制御の構造を曖昧にするため、閉ループの振る舞いを理解する能力は制限される。
本稿では,非線形モデリングと制御のハイブリッドシステム・ビューを採用し,問題に対して明示的な階層構造を付与し,複雑なダイナミクスをより単純な局所化単位に分解する。
そこで本研究では,データの時間構造を解析し,非線形境界を持つ確率的アフィン系に非線形ダイナミクスを自動的に分解する排他最大化(EM)アルゴリズムを提案する。
さらに,これらの時系列モデルは,非線形専門家から局所線形あるいは多項式フィードバックコントローラを模倣学習によって抽出する閉ループ拡張を自然に認めることを示す。
最後に、ハイブリッドシステムの階層的性質を取り入れ、大域値関数の局所多項式近似から導出される時間不変局所フィードバックコントローラの集合を最適化する、新しいハイブリッド実数エントロピーポリシー探索(hb-reps)手法を提案する。
関連論文リスト
- Random Features Approximation for Control-Affine Systems [6.067043299145924]
制御アフィン構造をキャプチャする非線形特徴表現の2つの新しいクラスを提案する。
提案手法はランダムな特徴(RF)近似を用いて,より少ない計算コストでカーネル手法の表現性を継承する。
論文 参考訳(メタデータ) (2024-06-10T17:54:57Z) - Data-driven Nonlinear Model Reduction using Koopman Theory: Integrated
Control Form and NMPC Case Study [56.283944756315066]
そこで本研究では,遅延座標符号化と全状態復号化を組み合わせた汎用モデル構造を提案し,Koopmanモデリングと状態推定を統合した。
ケーススタディでは,本手法が正確な制御モデルを提供し,高純度極低温蒸留塔のリアルタイム非線形予測制御を可能にすることを実証している。
論文 参考訳(メタデータ) (2024-01-09T11:54:54Z) - Neural Abstractions [72.42530499990028]
本稿では,ニューラルネットワークを用いた非線形力学モデルの安全性検証手法を提案する。
提案手法は,既存のベンチマーク非線形モデルにおいて,成熟度の高いFlow*と同等に動作することを示す。
論文 参考訳(メタデータ) (2023-01-27T12:38:09Z) - Formal Controller Synthesis for Markov Jump Linear Systems with
Uncertain Dynamics [64.72260320446158]
マルコフジャンプ線形系に対する制御器の合成法を提案する。
本手法は,MJLSの離散(モードジャンピング)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。
本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。
論文 参考訳(メタデータ) (2022-12-01T17:36:30Z) - Data-driven Control of Agent-based Models: an Equation/Variable-free
Machine Learning Approach [0.0]
複雑/マルチスケールシステムの集合力学を制御するための方程式/変数自由機械学習(EVFML)フレームワークを提案する。
提案手法は3段階からなる: (A) 高次元エージェントベースシミュレーション、機械学習(特に非線形多様体学習(DM))
創発力学の数値分岐解析を行うために方程式のない手法を用いる。
我々は,エージェントをベースとしたシミュレータを本質的で不正確に知られ,創発的なオープンループ定常状態に駆動する,データ駆動型組込み洗浄制御器を設計する。
論文 参考訳(メタデータ) (2022-07-12T18:16:22Z) - Nonlinear proper orthogonal decomposition for convection-dominated flows [0.0]
そこで本稿では,自動エンコーダと長期記憶ネットワークを組み合わせたエンドツーエンドのガレルキンフリーモデルを提案する。
我々の手法は精度を向上するだけでなく、トレーニングやテストの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-10-15T18:05:34Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Combining Gaussian processes and polynomial chaos expansions for
stochastic nonlinear model predictive control [0.0]
最適制御問題の時間不変不確かさを明示的に考慮する新しいアルゴリズムを提案する。
本稿では, 非線形変換の平均および分散推定値を得るために, この組み合わせを効率的に利用することを提案する。
最適制御問題に対する確率的目標と確率的制約の両方を定式化する方法を示す。
論文 参考訳(メタデータ) (2021-03-09T14:25:08Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Hierarchical Decomposition of Nonlinear Dynamics and Control for System
Identification and Policy Distillation [39.83837705993256]
強化学習(RL)の最近のトレンドは、力学と政策の複雑な表現に焦点を当てている。
制御コミュニティからインスピレーションを得て、複雑なダイナミクスをより単純なコンポーネントに分解するために、ハイブリッドスイッチングシステムの原則を適用します。
論文 参考訳(メタデータ) (2020-05-04T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。