Fugu-MT 論文翻訳(概要): Model-Based Reinforcement Learning via Stochastic Hybrid Models

論文の概要: Model-Based Reinforcement Learning via Stochastic Hybrid Models

arxiv url: http://arxiv.org/abs/2111.06211v3
Date: Tue, 20 Jun 2023 05:10:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 06:36:49.726469
Title: Model-Based Reinforcement Learning via Stochastic Hybrid Models
Title（参考訳）: 確率ハイブリッドモデルによるモデルベース強化学習
Authors: Hany Abdulsamad and Jan Peters
Abstract要約: 本稿では非線形モデリングと制御のハイブリッドシステムビューを採用する。本稿では,データの時間的構造を捉えるシーケンスモデリングパラダイムについて考察する。これらの時系列モデルは,ローカルフィードバックコントローラの抽出に使用するクローズドループ拡張を自然に認めていることを示す。
参考スコア（独自算出の注目度）: 39.83837705993256
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Optimal control of general nonlinear systems is a central challenge in automation. Enabled by powerful function approximators, data-driven approaches to control have recently successfully tackled challenging applications. However, such methods often obscure the structure of dynamics and control behind black-box over-parameterized representations, thus limiting our ability to understand closed-loop behavior. This paper adopts a hybrid-system view of nonlinear modeling and control that lends an explicit hierarchical structure to the problem and breaks down complex dynamics into simpler localized units. We consider a sequence modeling paradigm that captures the temporal structure of the data and derive an expectation-maximization (EM) algorithm that automatically decomposes nonlinear dynamics into stochastic piecewise affine models with nonlinear transition boundaries. Furthermore, we show that these time-series models naturally admit a closed-loop extension that we use to extract local polynomial feedback controllers from nonlinear experts via behavioral cloning. Finally, we introduce a novel hybrid relative entropy policy search (Hb-REPS) technique that incorporates the hierarchical nature of hybrid models and optimizes a set of time-invariant piecewise feedback controllers derived from a piecewise polynomial approximation of a global state-value function.
Abstract（参考訳）: 一般的な非線形システムの最適制御は、自動化における中心的な課題である。強力な関数近似子によって実現された、データ駆動による制御アプローチは、最近、挑戦的なアプリケーションをうまく取り組んだ。しかし、そのような手法はしばしばブラックボックスのオーバーパラメータ化表現の背後にある力学や制御の構造を曖昧にするため、閉ループの動作を理解する能力は制限される。本稿では,非線形モデリングと制御のハイブリッドシステム・ビューを採用し,問題に対して明示的な階層構造を付与し,複雑なダイナミクスをより単純な局所化単位に分解する。本研究では,データの時間構造をキャプチャし,非線形力学を非線形遷移境界を持つ確率的区分的アフィンモデルに自動的に分解する期待最大化(em)アルゴリズムを導出するシーケンスモデリングパラダイムを検討する。さらに,これらの時系列モデルに自然に閉ループ拡張を認め,非線形専門家からの局所多項式フィードバックコントローラを行動クローニングにより抽出することを示した。最後に,ハイブリッドモデルの階層的性質を組み込んだ新しいハイブリッド相対エントロピーポリシー探索(hb-reps)手法を導入し,大域的状態値関数の分割多項式近似から導出される時間不変部分フィードバックコントローラの集合を最適化する。

関連論文リスト

Nonlinear Model Order Reduction of Dynamical Systems in Process Engineering: Review and Comparison [50.0791489606211]
我々は、最先端の非線形モデルオーダー削減手法についてレビューする。本稿では,(化学)プロセスシステムのための汎用的手法と適合したアプローチについて論じる。
論文参考訳（メタデータ） (2025-06-15T11:39:12Z)
Efficient Transformed Gaussian Process State-Space Models for Non-Stationary High-Dimensional Dynamical Systems [49.819436680336786]
本研究では,高次元非定常力学系のスケーラブルかつ柔軟なモデリングのための効率的な変換ガウス過程状態空間モデル(ETGPSSM)を提案する。具体的には、ETGPSSMは、単一の共有GPと入力依存の正規化フローを統合し、複雑な非定常遷移ダイナミクスを捉える前に、表現的な暗黙のプロセスを生成する。 ETGPSSMは、計算効率と精度の観点から、既存のGPSSMとニューラルネットワークベースのSSMより優れています。
論文参考訳（メタデータ） (2025-03-24T03:19:45Z)
The Sample Complexity of Online Reinforcement Learning: A Multi-model Perspective [55.15192437680943]
連続状態と行動空間を持つ非線形力学系の一般設定におけるオンライン強化学習のサンプル複雑性について検討した。我々のアルゴリズムは、$mathcalO(N epsilon2 + Mathrmln(m(epsilon)/epsilon2)$のポリシーを後悔する。力学がコンパクトで実数値のパラメータ集合によってパラメータ化される特別な場合、$mathcalO(sqrt)のポリシー後悔を証明する。
論文参考訳（メタデータ） (2025-01-27T10:01:28Z)
Random Features Approximation for Control-Affine Systems [6.067043299145924]
制御アフィン構造をキャプチャする非線形特徴表現の2つの新しいクラスを提案する。提案手法はランダムな特徴(RF)近似を用いて,より少ない計算コストでカーネル手法の表現性を継承する。
論文参考訳（メタデータ） (2024-06-10T17:54:57Z)
Data-driven Nonlinear Model Reduction using Koopman Theory: Integrated Control Form and NMPC Case Study [56.283944756315066]
そこで本研究では,遅延座標符号化と全状態復号化を組み合わせた汎用モデル構造を提案し,Koopmanモデリングと状態推定を統合した。ケーススタディでは,本手法が正確な制御モデルを提供し,高純度極低温蒸留塔のリアルタイム非線形予測制御を可能にすることを実証している。
論文参考訳（メタデータ） (2024-01-09T11:54:54Z)
Neural Abstractions [72.42530499990028]
本稿では,ニューラルネットワークを用いた非線形力学モデルの安全性検証手法を提案する。提案手法は,既存のベンチマーク非線形モデルにおいて,成熟度の高いFlow*と同等に動作することを示す。
論文参考訳（メタデータ） (2023-01-27T12:38:09Z)
Formal Controller Synthesis for Markov Jump Linear Systems with Uncertain Dynamics [64.72260320446158]
マルコフジャンプ線形系に対する制御器の合成法を提案する。本手法は,MJLSの離散(モードジャンピング)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。
論文参考訳（メタデータ） (2022-12-01T17:36:30Z)
Data-driven Control of Agent-based Models: an Equation/Variable-free Machine Learning Approach [0.0]
複雑/マルチスケールシステムの集合力学を制御するための方程式/変数自由機械学習(EVFML)フレームワークを提案する。提案手法は3段階からなる: (A) 高次元エージェントベースシミュレーション、機械学習(特に非線形多様体学習(DM)) 創発力学の数値分岐解析を行うために方程式のない手法を用いる。我々は,エージェントをベースとしたシミュレータを本質的で不正確に知られ,創発的なオープンループ定常状態に駆動する,データ駆動型組込み洗浄制御器を設計する。
論文参考訳（メタデータ） (2022-07-12T18:16:22Z)
Nonlinear proper orthogonal decomposition for convection-dominated flows [0.0]
そこで本稿では,自動エンコーダと長期記憶ネットワークを組み合わせたエンドツーエンドのガレルキンフリーモデルを提案する。我々の手法は精度を向上するだけでなく、トレーニングやテストの計算コストを大幅に削減する。
論文参考訳（メタデータ） (2021-10-15T18:05:34Z)
Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文参考訳（メタデータ） (2021-04-28T16:48:44Z)
Combining Gaussian processes and polynomial chaos expansions for stochastic nonlinear model predictive control [0.0]
最適制御問題の時間不変不確かさを明示的に考慮する新しいアルゴリズムを提案する。本稿では, 非線形変換の平均および分散推定値を得るために, この組み合わせを効率的に利用することを提案する。最適制御問題に対する確率的目標と確率的制約の両方を定式化する方法を示す。
論文参考訳（メタデータ） (2021-03-09T14:25:08Z)
Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文参考訳（メタデータ） (2020-11-14T01:27:32Z)
Hierarchical Decomposition of Nonlinear Dynamics and Control for System Identification and Policy Distillation [39.83837705993256]
強化学習(RL)の最近のトレンドは、力学と政策の複雑な表現に焦点を当てている。制御コミュニティからインスピレーションを得て、複雑なダイナミクスをより単純なコンポーネントに分解するために、ハイブリッドスイッチングシステムの原則を適用します。
論文参考訳（メタデータ） (2020-05-04T12:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。