論文の概要: SINDy-RL: Interpretable and Efficient Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.09110v1
- Date: Thu, 14 Mar 2024 05:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 21:36:54.945972
- Title: SINDy-RL: Interpretable and Efficient Model-Based Reinforcement Learning
- Title(参考訳): SINDy-RL: モデルベース強化学習の解釈と効率化
- Authors: Nicholas Zolman, Urban Fasel, J. Nathan Kutz, Steven L. Brunton,
- Abstract要約: SINDy-RLは,SINDyと深層強化学習を組み合わせたフレームワークである。
SINDy-RLは最先端のDRLアルゴリズムに匹敵する性能を達成する。
我々は,ベンチマーク制御環境と流体問題に対するアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 5.59265003686955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) has shown significant promise for uncovering sophisticated control policies that interact in environments with complicated dynamics, such as stabilizing the magnetohydrodynamics of a tokamak fusion reactor or minimizing the drag force exerted on an object in a fluid flow. However, these algorithms require an abundance of training examples and may become prohibitively expensive for many applications. In addition, the reliance on deep neural networks often results in an uninterpretable, black-box policy that may be too computationally expensive to use with certain embedded systems. Recent advances in sparse dictionary learning, such as the sparse identification of nonlinear dynamics (SINDy), have shown promise for creating efficient and interpretable data-driven models in the low-data regime. In this work we introduce SINDy-RL, a unifying framework for combining SINDy and DRL to create efficient, interpretable, and trustworthy representations of the dynamics model, reward function, and control policy. We demonstrate the effectiveness of our approaches on benchmark control environments and challenging fluids problems. SINDy-RL achieves comparable performance to state-of-the-art DRL algorithms using significantly fewer interactions in the environment and results in an interpretable control policy orders of magnitude smaller than a deep neural network policy.
- Abstract(参考訳): 深部強化学習(DRL)は、トカマク核融合炉の磁気流体力学を安定化したり、流体中の物体に作用する抵抗力を最小化したり、複雑な力学と相互作用する洗練された制御ポリシーを明らかにする上で、大きな可能性を示している。
しかし、これらのアルゴリズムには多くのトレーニング例が必要であり、多くのアプリケーションでは違法に高価になる可能性がある。
さらに、ディープニューラルネットワークへの依存は、特定の組み込みシステムで使用するには計算コストがかかりすぎる、解釈不能なブラックボックスポリシーをもたらすことが多い。
非線形力学のスパース同定(SINDy)のような疎辞書学習の最近の進歩は、低データ体制下で効率的かつ解釈可能なデータ駆動モデルを作成することを約束している。
本研究では,SINDyとDRLを組み合わせた一元化フレームワークであるSINDy-RLを紹介する。
我々は,ベンチマーク制御環境と流体問題に対するアプローチの有効性を実証する。
SINDy-RLは、環境内の相互作用を著しく少なくすることで、最先端のDRLアルゴリズムに匹敵する性能を達成し、深いニューラルネットワークポリシーよりも桁違いに小さい解釈可能な制御ポリシー命令をもたらす。
関連論文リスト
- Interpretable and Efficient Data-driven Discovery and Control of Distributed Systems [1.5195865840919498]
強化学習(Reinforcement Learning, RL)は、高次元非線形力学を持つシステムにおいて、有望な制御パラダイムとして登場した。
PDE制御のためのデータ効率,解釈可能,スケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-06T18:26:19Z) - Learning from Demonstration with Implicit Nonlinear Dynamics Models [16.26835655544884]
本研究では、時間的ダイナミクスをモデル化するための可変な動的特性を持つ固定非線形力学系を含むリカレントニューラルネットワーク層を開発する。
LASA Human Handwriting データセットを用いて人間の手書き動作を再現する作業において,ニューラルネットワーク層の有効性を検証する。
論文 参考訳(メタデータ) (2024-09-27T14:12:49Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Turbulence control in plane Couette flow using low-dimensional neural
ODE-based models and deep reinforcement learning [0.0]
DManD-RL (data-driven manifold dynamics-RL) は,データ駆動型低次元モデルを生成する。
我々はRL制御エージェントを訓練し、数値シミュレーションで440倍のスピードアップを達成した。
エージェントは900時間以内の未確認DNSテストトラジェクトリの84%をラミナライズするポリシーを学習する。
論文 参考訳(メタデータ) (2023-01-28T05:47:10Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - Data-driven control of spatiotemporal chaos with reduced-order neural
ODE-based models and reinforcement learning [0.0]
ディープラーニングは、高次元システムの複雑な制御戦略を発見することができ、フロー制御アプリケーションに期待できる。
RLに関連する大きな課題は、ターゲットシステムと繰り返し対話することによって、実質的なトレーニングデータを生成する必要があることだ。
我々は、RLトレーニング中に真のシステムを配置したデータ駆動リダクション・オーダー・モデル(ROM)を用いて、最適なポリシーを効率的に推定する。
ROMベースの制御戦略は真のKSEによく似ており、RLエージェントがKSEシステムの根底にある強制平衡解を発見し、安定化することを強調する。
論文 参考訳(メタデータ) (2022-05-01T23:25:44Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。