論文の概要: Parametric PDE Control with Deep Reinforcement Learning and Differentiable L0-Sparse Polynomial Policies
- arxiv url: http://arxiv.org/abs/2403.15267v2
- Date: Wed, 09 Oct 2024 08:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:23.169027
- Title: Parametric PDE Control with Deep Reinforcement Learning and Differentiable L0-Sparse Polynomial Policies
- Title(参考訳): 深部強化学習によるパラメトリックPDE制御と微分可能なL0スパース多項式
- Authors: Nicolò Botteghi, Urban Fasel,
- Abstract要約: パラメトリック偏微分方程式(PDE)の最適制御は、工学や科学における多くの応用において重要である。
深部強化学習(DRL)は高次元および複雑な制御問題を解く可能性がある。
本研究では、辞書学習とL$_0$正規化を利用して、PDEのスパース、ロバスト、解釈可能な制御ポリシーを学習する。
- 参考スコア(独自算出の注目度): 0.5919433278490629
- License:
- Abstract: Optimal control of parametric partial differential equations (PDEs) is crucial in many applications in engineering and science. In recent years, the progress in scientific machine learning has opened up new frontiers for the control of parametric PDEs. In particular, deep reinforcement learning (DRL) has the potential to solve high-dimensional and complex control problems in a large variety of applications. Most DRL methods rely on deep neural network (DNN) control policies. However, for many dynamical systems, DNN-based control policies tend to be over-parametrized, which means they need large amounts of training data, show limited robustness, and lack interpretability. In this work, we leverage dictionary learning and differentiable L$_0$ regularization to learn sparse, robust, and interpretable control policies for parametric PDEs. Our sparse policy architecture is agnostic to the DRL method and can be used in different policy-gradient and actor-critic DRL algorithms without changing their policy-optimization procedure. We test our approach on the challenging tasks of controlling parametric Kuramoto-Sivashinsky and convection-diffusion-reaction PDEs. We show that our method (1) outperforms baseline DNN-based DRL policies, (2) allows for the derivation of interpretable equations of the learned optimal control laws, and (3) generalizes to unseen parameters of the PDE without retraining the policies.
- Abstract(参考訳): パラメトリック偏微分方程式(PDE)の最適制御は、工学や科学における多くの応用において重要である。
近年、科学機械学習の進歩により、パラメトリックPDEの制御のための新たなフロンティアが開かれた。
特に、深部強化学習(DRL)は、多種多様なアプリケーションにおいて高次元かつ複雑な制御問題を解く可能性がある。
ほとんどのDRLメソッドはディープニューラルネットワーク(DNN)制御ポリシーに依存している。
しかし、多くの動的システムでは、DNNベースの制御ポリシーは過度にパラメータ化されがちである。
本研究では,パラメトリックPDEのスパース,ロバスト,解釈可能な制御ポリシを学習するために,辞書学習と微分可能なL$_0$正規化を活用する。
我々のスパースポリシーアーキテクチャはDRL法に非依存であり、ポリシー最適化手順を変更することなく、異なるポリシー勾配およびアクタークリティカルなDRLアルゴリズムで使用することができる。
我々は,パラメトリックな倉本・シヴァシンスキーと対流拡散反応PDEの制御という課題に対して,我々のアプローチを検証した。
提案手法は,(1)ベースラインDNNに基づくDRLポリシーを上回り,(2)学習された最適制御法則の解釈可能な方程式の導出を可能にし,(3)ポリシーを再学習することなくPDEの未確認パラメータに一般化できることを示す。
関連論文リスト
- Interpretable and Efficient Data-driven Discovery and Control of Distributed Systems [1.5195865840919498]
強化学習(Reinforcement Learning, RL)は、高次元非線形力学を持つシステムにおいて、有望な制御パラダイムとして登場した。
PDE制御のためのデータ効率,解釈可能,スケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-06T18:26:19Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - A Comparison of Mesh-Free Differentiable Programming and Data-Driven
Strategies for Optimal Control under PDE Constraints [0.8287206589886879]
物理インフォームドニューラルネットワーク(PINN)や微分可能プログラミング(DP)のような新しい手法は、直接共役ループ(DAL)のような確立された数値スキームと対比される。
本稿では,Radar Basis関数に基づく汎用メッシュフリー微分可能PDEソルバを用いて,DAL,PINN,DPの総合比較を行う。
論文 参考訳(メタデータ) (2023-10-02T15:30:12Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Learning Neural PDE Solvers with Parameter-Guided Channel Attention [17.004380150146268]
天気予報、分子動力学、逆設計といった応用領域では、MLベースの代理モデルがますます使われている。
本稿では,ニューラルサロゲートモデルのためのチャネル注意埋め込み(CAPE)コンポーネントと,シンプルで効果的なカリキュラム学習戦略を提案する。
CAPEモジュールは、未知のPDEパラメータに適応できるように、ニューラルPDEソルバと組み合わせることができる。
論文 参考訳(メタデータ) (2023-04-27T12:05:34Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Distributional Offline Continuous-Time Reinforcement Learning with
Neural Physics-Informed PDEs (SciPhy RL for DOCTR-L) [0.0]
本稿では,分散オフライン連続時間強化学習(DOCTR-L)を高次元最適制御のためのポリシーで扱う。
ソフトHJB方程式のデータ駆動解は、SciML(Scientific Machine Learning)の分野で開発されたニューラルPDEと物理情報ニューラルネットワークの手法を用いている
Deep DOCTR-Lと呼ばれるアルゴリズムは、オフラインの高次元データを教師あり学習に還元することで、一つのステップで最適なポリシーに変換する。
論文 参考訳(メタデータ) (2021-04-02T13:22:14Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。