論文の概要: Data-driven control of spatiotemporal chaos with reduced-order neural
ODE-based models and reinforcement learning
- arxiv url: http://arxiv.org/abs/2205.00579v1
- Date: Sun, 1 May 2022 23:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 00:50:03.807592
- Title: Data-driven control of spatiotemporal chaos with reduced-order neural
ODE-based models and reinforcement learning
- Title(参考訳): 低次ニューラルodeモデルと強化学習による時空間カオスのデータ駆動制御
- Authors: Kevin Zeng, Alec J. Linot, Michael D. Graham
- Abstract要約: ディープラーニングは、高次元システムの複雑な制御戦略を発見することができ、フロー制御アプリケーションに期待できる。
RLに関連する大きな課題は、ターゲットシステムと繰り返し対話することによって、実質的なトレーニングデータを生成する必要があることだ。
我々は、RLトレーニング中に真のシステムを配置したデータ駆動リダクション・オーダー・モデル(ROM)を用いて、最適なポリシーを効率的に推定する。
ROMベースの制御戦略は真のKSEによく似ており、RLエージェントがKSEシステムの根底にある強制平衡解を発見し、安定化することを強調する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (RL) is a data-driven method capable of
discovering complex control strategies for high-dimensional systems, making it
promising for flow control applications. In particular, the present work is
motivated by the goal of reducing energy dissipation in turbulent flows, and
the example considered is the spatiotemporally chaotic dynamics of the
Kuramoto-Sivashinsky equation (KSE). A major challenge associated with RL is
that substantial training data must be generated by repeatedly interacting with
the target system, making it costly when the system is computationally or
experimentally expensive. We mitigate this challenge in a data-driven manner by
combining dimensionality reduction via an autoencoder with a neural ODE
framework to obtain a low-dimensional dynamical model from just a limited data
set. We substitute this data-driven reduced-order model (ROM) in place of the
true system during RL training to efficiently estimate the optimal policy,
which can then be deployed on the true system. For the KSE actuated with
localized forcing ("jets") at four locations, we demonstrate that we are able
to learn a ROM that accurately captures the actuated dynamics as well as the
underlying natural dynamics just from snapshots of the KSE experiencing random
actuations. Using this ROM and a control objective of minimizing dissipation
and power cost, we extract a control policy from it using deep RL. We show that
the ROM-based control strategy translates well to the true KSE and highlight
that the RL agent discovers and stabilizes an underlying forced equilibrium
solution of the KSE system. We show that this forced equilibrium captured in
the ROM and discovered through RL is related to an existing known equilibrium
solution of the natural KSE.
- Abstract(参考訳): 深部強化学習(Deep reinforcement Learning, RL)は、高次元システムの複雑な制御戦略を発見するためのデータ駆動型手法である。
特に,本研究の動機は, 乱流中のエネルギー散逸を減少させることであり, その例として倉本-シヴァシンスキー方程式(KSE)の時空間カオス力学があげられる。
RLに関連する大きな課題は、ターゲットシステムと繰り返し対話することで、実質的なトレーニングデータを生成する必要があることであり、システムが計算的または実験的に高価である場合にコストがかかることである。
オートエンコーダによる次元の縮小とニューラルネットワークのodeフレームワークを組み合わせることで,この課題をデータ駆動方式で軽減し,限られたデータセットから低次元力学モデルを得る。
このデータ駆動低次モデル(rom)をrlトレーニング中に真のシステムの代わりに置き換え、最適なポリシーを効率的に推定し、それを真のシステムにデプロイする。
4つの位置で局所的な強制(jets)を作用させたKSEに対して、ランダムな運動を経験するKSEのスナップショットから、アクティベートされたダイナミクスを正確にキャプチャするROMを学習できることを実証する。
このROMと、送電量と電力コストを最小化する制御目的を用いて、深いRLを用いて制御ポリシーを抽出する。
ROMベースの制御戦略は真のKSEによく似ており、RLエージェントがKSEシステムの根底にある強制平衡解を発見し、安定化することを強調する。
ROMで捕獲され、RLを通して発見されたこの強制平衡は、KSEの既知の平衡解と関連していることを示す。
関連論文リスト
- Neural Internal Model Control: Learning a Robust Control Policy via Predictive Error Feedback [16.46487826869775]
本稿では,モデルベース制御とRLベース制御を統合し,ロバスト性を高めるニューラル内部モデル制御を提案する。
我々のフレームワークは、剛体力学にニュートン・オイラー方程式を適用することで予測モデルを合理化し、複雑な高次元非線形性を捉える必要がなくなる。
本研究では,四足歩行ロボットと四足歩行ロボットにおけるフレームワークの有効性を実証し,最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T07:07:42Z) - SINDy-RL: Interpretable and Efficient Model-Based Reinforcement Learning [5.59265003686955]
SINDy-RLは,SINDyと深層強化学習を組み合わせたフレームワークである。
SINDy-RLは最先端のDRLアルゴリズムに匹敵する性能を達成する。
我々は,ベンチマーク制御環境と流体問題に対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-14T05:17:39Z) - Compressing Deep Reinforcement Learning Networks with a Dynamic
Structured Pruning Method for Autonomous Driving [63.155562267383864]
深部強化学習(DRL)は複雑な自律運転シナリオにおいて顕著な成功を収めている。
DRLモデルは、必然的に高いメモリ消費と計算をもたらし、リソース限定の自動運転デバイスへの広範な展開を妨げる。
そこで本研究では,DRLモデルの非重要なニューロンを段階的に除去する,新しい動的構造化プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T09:00:30Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - Symmetry reduction for deep reinforcement learning active control of
chaotic spatiotemporal dynamics [0.0]
深層強化学習(RL)は、高次元システムにおけるマクロな目的のための複雑な制御戦略を発見することができる。
本研究では,深部RL問題を対称還元空間へ移動させることにより,深部RLのナイーブ応用に内在する制約を緩和できることを示した。
我々は, 対称性を低減した深部RLは, ナイーブ深部RLよりもデータ効率が向上し, 制御ポリシの有効性が向上することを示した。
論文 参考訳(メタデータ) (2021-04-09T17:55:12Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。