論文の概要: Policy Optimization for PDE Control with a Warm Start
- arxiv url: http://arxiv.org/abs/2403.01005v1
- Date: Fri, 1 Mar 2024 22:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:37:19.427326
- Title: Policy Optimization for PDE Control with a Warm Start
- Title(参考訳): 温暖化開始を考慮したPDE制御の政策最適化
- Authors: Xiangyuan Zhang, Saviz Mowlavi, Mouhacine Benosman, Tamer Ba\c{s}ar
- Abstract要約: 非線形偏微分方程式(PDE)の制御には次元減少が不可欠である
我々は,次元の減少からモデル誤差を補うために,ポリシー最適化ステップで削減設計手順を拡大する。
我々の手法は、エンドツーエンドの強化学習を用いたPDE制御に代わる費用対効果を提供する。
- 参考スコア(独自算出の注目度): 3.0811185425377743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dimensionality reduction is crucial for controlling nonlinear partial
differential equations (PDE) through a "reduce-then-design" strategy, which
identifies a reduced-order model and then implements model-based control
solutions. However, inaccuracies in the reduced-order modeling can
substantially degrade controller performance, especially in PDEs with chaotic
behavior. To address this issue, we augment the reduce-then-design procedure
with a policy optimization (PO) step. The PO step fine-tunes the model-based
controller to compensate for the modeling error from dimensionality reduction.
This augmentation shifts the overall strategy into
reduce-then-design-then-adapt, where the model-based controller serves as a
warm start for PO. Specifically, we study the state-feedback tracking control
of PDEs that aims to align the PDE state with a specific constant target
subject to a linear-quadratic cost. Through extensive experiments, we show that
a few iterations of PO can significantly improve the model-based controller
performance. Our approach offers a cost-effective alternative to PDE control
using end-to-end reinforcement learning.
- Abstract(参考訳): 次元の縮小は、減数次モデルを特定し、モデルベースの制御ソリューションを実装する"reduce-then-design"戦略を通じて非線形偏微分方程式(pde)を制御するのに不可欠である。
しかし、低次モデリングの不正確さは、特にカオスな振る舞いを持つPDEにおいて、制御性能を著しく低下させる可能性がある。
この問題に対処するために、ポリシー最適化(PO)ステップで省エネ設計手順を強化する。
POステップはモデルベースのコントローラを微調整し、次元減少からモデリングエラーを補う。
この拡張により、全体戦略がreduce-then-design-then-adaptに移行し、モデルベースのコントローラがpoのウォームスタートとして機能する。
具体的には,PDE状態と特定の一定目標を線形2次コストで整列することを目的としたPDEの状態フィードバックトラッキング制御について検討する。
広範にわたる実験により,POのいくつかのイテレーションは,モデルベースコントローラの性能を大幅に向上させることができることを示す。
我々の手法は、エンドツーエンドの強化学習を用いたPDE制御に代わる費用対効果を提供する。
関連論文リスト
- Bridging Autoencoders and Dynamic Mode Decomposition for Reduced-order Modeling and Control of PDEs [12.204795159651589]
本稿では,Ptemporals が支配する動的システムの低次モデリングと制御のための深層自己コーディング学習手法について検討する。
まず,線形オートエン縮退モデルの学習目標を定式化し,制御アルゴリズムを用いて動的モード分解により得られる結果によく似た解が得られることを示す。
次に、この線形自動符号化アーキテクチャをディープ・オートコーディング・フレームワークに拡張し、非線形低次モデルの開発を可能にする。
論文 参考訳(メタデータ) (2024-09-09T22:56:40Z) - Real-time optimal control of high-dimensional parametrized systems by deep learning-based reduced order models [3.5161229331588095]
複数のシナリオにおけるパラメタライズされたPDEの観点で記述されたシステムの迅速な制御のための,非侵襲的なディープラーニングベースリダクションオーダーモデリング(DL-ROM)手法を提案する。
i)データ生成、(ii)次元削減、および(iii)オフラインフェーズでのニューラルネットワークトレーニングの後、任意のシナリオにおいて、最適制御戦略をオンラインフェーズで迅速に検索することができる。
論文 参考訳(メタデータ) (2024-09-09T15:20:24Z) - Adaptive Neural-Operator Backstepping Control of a Benchmark Hyperbolic
PDE [3.3044728148521623]
適応型PDE制御におけるNOsの適用に関する最初の結果を示し, 再循環を伴うベンチマーク1次元双曲型PDEを提案する。
また,安定性を示す数値シミュレーションを行い,最大3桁のスピードアップを観測する。
論文 参考訳(メタデータ) (2024-01-15T17:52:15Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Neural Control of Parametric Solutions for High-dimensional Evolution
PDEs [6.649496716171139]
我々は進化偏微分方程式(PDE)の解演算子を近似する新しい計算フレームワークを開発する。
パラメータ空間における制御ベクトル場を学習することにより,PDEの解演算子を近似する。
これにより計算コストを大幅に削減し、任意の初期条件で進化PDEを解くことができる。
論文 参考訳(メタデータ) (2023-01-31T19:26:25Z) - Solving PDE-constrained Control Problems Using Operator Learning [14.30832827446317]
特殊正規化器を用いたPDE解演算子に対するサロゲートモデルを導入する。
私たちのフレームワークは、データ駆動とデータフリーの両方のケースに適用できます。
論文 参考訳(メタデータ) (2021-11-09T03:41:55Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。