論文の概要: Model-Based Reinforcement Learning via Stochastic Hybrid Models
- arxiv url: http://arxiv.org/abs/2111.06211v3
- Date: Tue, 20 Jun 2023 05:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 06:36:49.726469
- Title: Model-Based Reinforcement Learning via Stochastic Hybrid Models
- Title(参考訳): 確率ハイブリッドモデルによるモデルベース強化学習
- Authors: Hany Abdulsamad and Jan Peters
- Abstract要約: 本稿では非線形モデリングと制御のハイブリッドシステムビューを採用する。
本稿では,データの時間的構造を捉えるシーケンスモデリングパラダイムについて考察する。
これらの時系列モデルは,ローカルフィードバックコントローラの抽出に使用するクローズドループ拡張を自然に認めていることを示す。
- 参考スコア(独自算出の注目度): 39.83837705993256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal control of general nonlinear systems is a central challenge in
automation. Enabled by powerful function approximators, data-driven approaches
to control have recently successfully tackled challenging applications.
However, such methods often obscure the structure of dynamics and control
behind black-box over-parameterized representations, thus limiting our ability
to understand closed-loop behavior. This paper adopts a hybrid-system view of
nonlinear modeling and control that lends an explicit hierarchical structure to
the problem and breaks down complex dynamics into simpler localized units. We
consider a sequence modeling paradigm that captures the temporal structure of
the data and derive an expectation-maximization (EM) algorithm that
automatically decomposes nonlinear dynamics into stochastic piecewise affine
models with nonlinear transition boundaries. Furthermore, we show that these
time-series models naturally admit a closed-loop extension that we use to
extract local polynomial feedback controllers from nonlinear experts via
behavioral cloning. Finally, we introduce a novel hybrid relative entropy
policy search (Hb-REPS) technique that incorporates the hierarchical nature of
hybrid models and optimizes a set of time-invariant piecewise feedback
controllers derived from a piecewise polynomial approximation of a global
state-value function.
- Abstract(参考訳): 一般的な非線形システムの最適制御は、自動化における中心的な課題である。
強力な関数近似子によって実現された、データ駆動による制御アプローチは、最近、挑戦的なアプリケーションをうまく取り組んだ。
しかし、そのような手法はしばしばブラックボックスのオーバーパラメータ化表現の背後にある力学や制御の構造を曖昧にするため、閉ループの動作を理解する能力は制限される。
本稿では,非線形モデリングと制御のハイブリッドシステム・ビューを採用し,問題に対して明示的な階層構造を付与し,複雑なダイナミクスをより単純な局所化単位に分解する。
本研究では,データの時間構造をキャプチャし,非線形力学を非線形遷移境界を持つ確率的区分的アフィンモデルに自動的に分解する期待最大化(em)アルゴリズムを導出するシーケンスモデリングパラダイムを検討する。
さらに,これらの時系列モデルに自然に閉ループ拡張を認め,非線形専門家からの局所多項式フィードバックコントローラを行動クローニングにより抽出することを示した。
最後に,ハイブリッドモデルの階層的性質を組み込んだ新しいハイブリッド相対エントロピーポリシー探索(hb-reps)手法を導入し,大域的状態値関数の分割多項式近似から導出される時間不変部分フィードバックコントローラの集合を最適化する。
関連論文リスト
- Random Features Approximation for Control-Affine Systems [6.067043299145924]
制御アフィン構造をキャプチャする非線形特徴表現の2つの新しいクラスを提案する。
提案手法はランダムな特徴(RF)近似を用いて,より少ない計算コストでカーネル手法の表現性を継承する。
論文 参考訳(メタデータ) (2024-06-10T17:54:57Z) - Data-driven Nonlinear Model Reduction using Koopman Theory: Integrated
Control Form and NMPC Case Study [56.283944756315066]
そこで本研究では,遅延座標符号化と全状態復号化を組み合わせた汎用モデル構造を提案し,Koopmanモデリングと状態推定を統合した。
ケーススタディでは,本手法が正確な制御モデルを提供し,高純度極低温蒸留塔のリアルタイム非線形予測制御を可能にすることを実証している。
論文 参考訳(メタデータ) (2024-01-09T11:54:54Z) - Neural Abstractions [72.42530499990028]
本稿では,ニューラルネットワークを用いた非線形力学モデルの安全性検証手法を提案する。
提案手法は,既存のベンチマーク非線形モデルにおいて,成熟度の高いFlow*と同等に動作することを示す。
論文 参考訳(メタデータ) (2023-01-27T12:38:09Z) - Formal Controller Synthesis for Markov Jump Linear Systems with
Uncertain Dynamics [64.72260320446158]
マルコフジャンプ線形系に対する制御器の合成法を提案する。
本手法は,MJLSの離散(モードジャンピング)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。
本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。
論文 参考訳(メタデータ) (2022-12-01T17:36:30Z) - Data-driven Control of Agent-based Models: an Equation/Variable-free
Machine Learning Approach [0.0]
複雑/マルチスケールシステムの集合力学を制御するための方程式/変数自由機械学習(EVFML)フレームワークを提案する。
提案手法は3段階からなる: (A) 高次元エージェントベースシミュレーション、機械学習(特に非線形多様体学習(DM))
創発力学の数値分岐解析を行うために方程式のない手法を用いる。
我々は,エージェントをベースとしたシミュレータを本質的で不正確に知られ,創発的なオープンループ定常状態に駆動する,データ駆動型組込み洗浄制御器を設計する。
論文 参考訳(メタデータ) (2022-07-12T18:16:22Z) - Nonlinear proper orthogonal decomposition for convection-dominated flows [0.0]
そこで本稿では,自動エンコーダと長期記憶ネットワークを組み合わせたエンドツーエンドのガレルキンフリーモデルを提案する。
我々の手法は精度を向上するだけでなく、トレーニングやテストの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-10-15T18:05:34Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Combining Gaussian processes and polynomial chaos expansions for
stochastic nonlinear model predictive control [0.0]
最適制御問題の時間不変不確かさを明示的に考慮する新しいアルゴリズムを提案する。
本稿では, 非線形変換の平均および分散推定値を得るために, この組み合わせを効率的に利用することを提案する。
最適制御問題に対する確率的目標と確率的制約の両方を定式化する方法を示す。
論文 参考訳(メタデータ) (2021-03-09T14:25:08Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Hierarchical Decomposition of Nonlinear Dynamics and Control for System
Identification and Policy Distillation [39.83837705993256]
強化学習(RL)の最近のトレンドは、力学と政策の複雑な表現に焦点を当てている。
制御コミュニティからインスピレーションを得て、複雑なダイナミクスをより単純なコンポーネントに分解するために、ハイブリッドスイッチングシステムの原則を適用します。
論文 参考訳(メタデータ) (2020-05-04T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。