論文の概要: HypeRL: Parameter-Informed Reinforcement Learning for Parametric PDEs
- arxiv url: http://arxiv.org/abs/2501.04538v1
- Date: Wed, 08 Jan 2025 14:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:55:24.666331
- Title: HypeRL: Parameter-Informed Reinforcement Learning for Parametric PDEs
- Title(参考訳): HypeRL:パラメトリックPDEのためのパラメータインフォームド強化学習
- Authors: Nicolò Botteghi, Stefania Fresca, Mengwu Guo, Andrea Manzoni,
- Abstract要約: 我々はPDEの最適制御のための新しい汎用強化学習戦略を考案する。
HypeRLは最適制御ポリシーを直接近似することを目的としている。
提案手法を2つのPDE制約付き最適制御ベンチマークで検証する。
- 参考スコア(独自算出の注目度): 0.6249768559720122
- License:
- Abstract: In this work, we devise a new, general-purpose reinforcement learning strategy for the optimal control of parametric partial differential equations (PDEs). Such problems frequently arise in applied sciences and engineering and entail a significant complexity when control and/or state variables are distributed in high-dimensional space or depend on varying parameters. Traditional numerical methods, relying on either iterative minimization algorithms or dynamic programming, while reliable, often become computationally infeasible. Indeed, in either way, the optimal control problem must be solved for each instance of the parameters, and this is out of reach when dealing with high-dimensional time-dependent and parametric PDEs. In this paper, we propose HypeRL, a deep reinforcement learning (DRL) framework to overcome the limitations shown by traditional methods. HypeRL aims at approximating the optimal control policy directly. Specifically, we employ an actor-critic DRL approach to learn an optimal feedback control strategy that can generalize across the range of variation of the parameters. To effectively learn such optimal control laws, encoding the parameter information into the DRL policy and value function neural networks (NNs) is essential. To do so, HypeRL uses two additional NNs, often called hypernetworks, to learn the weights and biases of the value function and the policy NNs. We validate the proposed approach on two PDE-constrained optimal control benchmarks, namely a 1D Kuramoto-Sivashinsky equation and a 2D Navier-Stokes equations, by showing that the knowledge of the PDE parameters and how this information is encoded, i.e., via a hypernetwork, is an essential ingredient for learning parameter-dependent control policies that can generalize effectively to unseen scenarios and for improving the sample efficiency of such policies.
- Abstract(参考訳): 本研究では、パラメトリック偏微分方程式(PDE)の最適制御のための、新しい汎用強化学習戦略を考案する。
このような問題は応用科学や工学で頻繁に発生し、制御変数や状態変数が高次元空間に分散されたり、パラメータによって異なる場合、かなり複雑になる。
従来の数値法では、反復最小化アルゴリズムや動的プログラミングを頼りにしているが、信頼性は高いが、しばしば計算が不可能になる。
実際、いずれにせよ、パラメータのインスタンス毎に最適制御問題は解決されなければならないが、これは高次元時間依存およびパラメトリックPDEを扱う際には到達できない。
本稿では,従来の手法による制限を克服する深層強化学習(DRL)フレームワークであるHypeRLを提案する。
HypeRLは最適制御ポリシーを直接近似することを目的としている。
具体的には,パラメータの変動範囲をまたいで一般化可能な最適フィードバック制御戦略を学ぶために,アクタ批判型DRLアプローチを用いる。
このような最適制御法則を効果的に学習するためには、パラメータ情報をDRLポリシー及び値関数ニューラルネットワーク(NN)に符号化することが不可欠である。
そのためにHypeRLは、ハイパーネットワークと呼ばれる2つの追加NNを使用して、値関数とポリシーNNの重みとバイアスを学習する。
提案手法は,PDEパラメータの知識と,その情報がどのように符号化されているかを示す1次元倉本・シヴァシンスキー方程式と2次元ナビエ・ストークス方程式の2つのPDE制約最適制御ベンチマークに対する検証である。
関連論文リスト
- Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Interpretable and Efficient Data-driven Discovery and Control of Distributed Systems [1.5195865840919498]
強化学習(Reinforcement Learning, RL)は、高次元非線形力学を持つシステムにおいて、有望な制御パラダイムとして登場した。
PDE制御のためのデータ効率,解釈可能,スケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-06T18:26:19Z) - GEPS: Boosting Generalization in Parametric PDE Neural Solvers through Adaptive Conditioning [14.939978372699084]
データ駆動型アプローチは、異なるPDEパラメータを持つ非常に多種多様な軌跡を組み込むことでパラメトリックPDEを学ぶ。
GEPSはPdeソルバのGEneralizationを促進するための単純な適応機構である。
完全データ駆動型と物理対応型ニューラルソルバの両方に対するアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2024-10-31T12:51:40Z) - Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Parametric PDE Control with Deep Reinforcement Learning and Differentiable L0-Sparse Polynomial Policies [0.5919433278490629]
パラメトリック偏微分方程式(PDE)の最適制御は、工学や科学における多くの応用において重要である。
深部強化学習(DRL)は高次元および複雑な制御問題を解く可能性がある。
本研究では、辞書学習とL$_0$正規化を利用して、PDEのスパース、ロバスト、解釈可能な制御ポリシーを学習する。
論文 参考訳(メタデータ) (2024-03-22T15:06:31Z) - On Parametric Optimal Execution and Machine Learning Surrogates [3.077531983369872]
本研究では,短時間の価格変動とレジリエンスを考慮した離散時間における最適順序実行問題について検討する。
動的プログラミングとディープラーニングに基づく数値アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-18T22:40:14Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。