論文の概要: Distributional Offline Continuous-Time Reinforcement Learning with
Neural Physics-Informed PDEs (SciPhy RL for DOCTR-L)
- arxiv url: http://arxiv.org/abs/2104.01040v1
- Date: Fri, 2 Apr 2021 13:22:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 13:59:14.956556
- Title: Distributional Offline Continuous-Time Reinforcement Learning with
Neural Physics-Informed PDEs (SciPhy RL for DOCTR-L)
- Title(参考訳): ニューラル物理インフォームドPDEによるオフライン連続強化学習(DOCTR-LのためのSciPhy RL)
- Authors: Igor Halperin
- Abstract要約: 本稿では,分散オフライン連続時間強化学習(DOCTR-L)を高次元最適制御のためのポリシーで扱う。
ソフトHJB方程式のデータ駆動解は、SciML(Scientific Machine Learning)の分野で開発されたニューラルPDEと物理情報ニューラルネットワークの手法を用いている
Deep DOCTR-Lと呼ばれるアルゴリズムは、オフラインの高次元データを教師あり学習に還元することで、一つのステップで最適なポリシーに変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper addresses distributional offline continuous-time reinforcement
learning (DOCTR-L) with stochastic policies for high-dimensional optimal
control. A soft distributional version of the classical Hamilton-Jacobi-Bellman
(HJB) equation is given by a semilinear partial differential equation (PDE).
This `soft HJB equation' can be learned from offline data without assuming that
the latter correspond to a previous optimal or near-optimal policy. A
data-driven solution of the soft HJB equation uses methods of Neural PDEs and
Physics-Informed Neural Networks developed in the field of Scientific Machine
Learning (SciML). The suggested approach, dubbed `SciPhy RL', thus reduces
DOCTR-L to solving neural PDEs from data. Our algorithm called Deep DOCTR-L
converts offline high-dimensional data into an optimal policy in one step by
reducing it to supervised learning, instead of relying on value iteration or
policy iteration methods. The method enables a computable approach to the
quality control of obtained policies in terms of both their expected returns
and uncertainties about their values.
- Abstract(参考訳): 本稿では,高次元最適制御のための確率的ポリシを用いたオフライン連続時間強化学習(DOCTR-L)について述べる。
古典的ハミルトン・ヤコビ・ベルマン方程式(HJB)の軟分布版は半線形偏微分方程式(PDE)によって与えられる。
この「ソフトHJB方程式」は、後者が以前の最適あるいは準最適ポリシーに対応すると仮定することなく、オフラインデータから学習することができる。
ソフトなHJB方程式のデータ駆動解は、SciML(SciML)の分野で開発されたニューラルネットワークと物理インフォームドニューラルネットワークの手法を用いる。
提案されたアプローチは ‘SciPhy RL’ と呼ばれ、データからニューラルPDEを解くためにDOCTR-Lを減らす。
deep doctr-lと呼ばれるアルゴリズムは、オフラインの高次元データを1ステップで最適なポリシーに変換し、それを教師あり学習に還元する。
提案手法は,期待されるリターンと値の不確実性の両方の観点から,得られたポリシの品質管理に対する計算可能なアプローチを可能にする。
関連論文リスト
- Partial-differential-algebraic equations of nonlinear dynamics by Physics-Informed Neural-Network: (I) Operator splitting and framework assessment [51.3422222472898]
偏微分代数方程式の解法として, 新規な物理情報ネットワーク(PINN)の構築法が提案されている。
これらの新しい手法には PDE 形式があり、これは未知の従属変数が少ない低レベル形式からより従属変数を持つ高レベル形式へと進化している。
論文 参考訳(メタデータ) (2024-07-13T22:48:17Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Parametric PDE Control with Deep Reinforcement Learning and Differentiable L0-Sparse Polynomial Policies [0.5919433278490629]
パラメトリック偏微分方程式(PDE)の最適制御は、工学や科学における多くの応用において重要である。
深部強化学習(DRL)は高次元および複雑な制御問題を解く可能性がある。
本研究では、辞書学習とL$_0$正規化を利用して、PDEのスパース、ロバスト、解釈可能な制御ポリシーを学習する。
論文 参考訳(メタデータ) (2024-03-22T15:06:31Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Bi-level Physics-Informed Neural Networks for PDE Constrained
Optimization using Broyden's Hypergradients [29.487375792661005]
PDE制約最適化問題を解決するための新しい二段階最適化フレームワークを提案する。
内部ループ最適化では、PDE制約のみを解決するためにPINNを採用する。
外部ループに対しては,Implicit関数定理に基づく Broyden'simat 法を用いて新しい手法を設計する。
論文 参考訳(メタデータ) (2022-09-15T06:21:24Z) - Data-driven initialization of deep learning solvers for
Hamilton-Jacobi-Bellman PDEs [3.249853429482705]
状態依存型 Riccati 方程式制御法は、まず、教師付き学習のための勾配拡張合成データセットを生成するために用いられる。
得られたモデルは、HJB PDEの残量に基づく損失関数の最小化のためのウォームスタートとなる。
論文 参考訳(メタデータ) (2022-07-19T14:34:07Z) - Physics-Informed Neural Operator for Learning Partial Differential
Equations [55.406540167010014]
PINOは、演算子を学ぶために異なる解像度でデータとPDE制約を組み込んだ最初のハイブリッドアプローチである。
結果の PINO モデルは、多くの人気のある PDE ファミリの基底構造解演算子を正確に近似することができる。
論文 参考訳(メタデータ) (2021-11-06T03:41:34Z) - Machine Learning For Elliptic PDEs: Fast Rate Generalization Bound,
Neural Scaling Law and Minimax Optimality [11.508011337440646]
楕円偏微分方程式(PDE)をランダムサンプルから解くための深層学習手法の統計的限界について検討する。
この問題を単純化するために、ディリクレ境界条件がゼロのハイパーキューブ上のシュル・オーディンガー方程式(英語版)という楕円型PDEのプロトタイプに焦点をあてる。
両手法の上限値と下限値を確立し,この問題に対して同時に開発された上限値を改善する。
論文 参考訳(メタデータ) (2021-10-13T17:26:31Z) - PhyCRNet: Physics-informed Convolutional-Recurrent Network for Solving
Spatiotemporal PDEs [8.220908558735884]
偏微分方程式 (Partial differential equation, PDE) は、幅広い分野の問題をモデル化し、シミュレーションする上で基礎的な役割を果たす。
近年のディープラーニングの進歩は、データ駆動逆解析の基盤としてPDEを解くために物理学インフォームドニューラルネットワーク(NN)の大きな可能性を示している。
本稿では,PDEをラベル付きデータなしで解くための物理インフォームド・畳み込み学習アーキテクチャ(PhyCRNetとPhCRyNet-s)を提案する。
論文 参考訳(メタデータ) (2021-06-26T22:22:19Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。