論文の概要: A multilevel reinforcement learning framework for PDE based control
- arxiv url: http://arxiv.org/abs/2210.08400v1
- Date: Sat, 15 Oct 2022 23:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 22:10:25.260485
- Title: A multilevel reinforcement learning framework for PDE based control
- Title(参考訳): pdeベース制御のための多レベル強化学習フレームワーク
- Authors: Atish Dixit, Ahmed Elsheikh
- Abstract要約: 強化学習(RL)は制御問題を解くための有望な方法である。
モデルフリーなRLアルゴリズムは、サンプル非効率であり、最適な制御ポリシーを学ぶために、数百万のサンプルを必要としない何千ものサンプルを必要とする。
本稿では,粗いスケールの離散化に対応するサブレベルモデルを活用することで,コストの低減を図るため,マルチレベルRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.2538209532048867
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) is a promising method to solve control problems.
However, model-free RL algorithms are sample inefficient and require thousands
if not millions of samples to learn optimal control policies. A major source of
computational cost in RL corresponds to the transition function, which is
dictated by the model dynamics. This is especially problematic when model
dynamics is represented with coupled PDEs. In such cases, the transition
function often involves solving a large-scale discretization of the said PDEs.
We propose a multilevel RL framework in order to ease this cost by exploiting
sublevel models that correspond to coarser scale discretization (i.e.
multilevel models). This is done by formulating an approximate multilevel Monte
Carlo estimate of the objective function of the policy and / or value network
instead of Monte Carlo estimates, as done in the classical framework. As a
demonstration of this framework, we present a multilevel version of the
proximal policy optimization (PPO) algorithm. Here, the level refers to the
grid fidelity of the chosen simulation-based environment. We provide two
examples of simulation-based environments that employ stochastic PDEs that are
solved using finite-volume discretization. For the case studies presented, we
observed substantial computational savings using multilevel PPO compared to its
classical counterpart.
- Abstract(参考訳): 強化学習(RL)は制御問題を解くための有望な方法である。
しかし、モデルフリーなRLアルゴリズムはサンプル非効率であり、最適な制御ポリシーを学ぶのに数百万のサンプルを必要としない。
rlにおける計算コストの主な源は遷移関数に対応しており、これはモデルダイナミクスによって決定される。
モデルダイナミクスが結合pdesで表現される場合、これは特に問題となる。
そのような場合、遷移関数は、しばしば上記のPDEの大規模離散化を解く。
本稿では, 粗いスケールの離散化に対応するサブレベルモデル(マルチレベルモデル)を活用することで, コストの低減を図るため, マルチレベルRLフレームワークを提案する。
これは、モンテカルロ推定に代えて、政策と/または価値ネットワークの目的関数の近似マルチレベルモンテカルロ推定を古典的な枠組みで定式化することによって行われる。
このフレームワークの実証として,ppo(proximal policy optimization)アルゴリズムの多レベルバージョンを提案する。
ここで、レベルは、選択されたシミュレーションベースの環境のグリッド忠実性を示す。
有限体積離散化を用いて解く確率的PDEを用いたシミュレーションベースの環境の2つの例を示す。
提案するケーススタディでは, 従来のPPOと比較して, 多レベルPPOを用いて, 相当量の計算貯蓄を観測した。
関連論文リスト
- Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Kolmogorov n-Widths for Multitask Physics-Informed Machine Learning (PIML) Methods: Towards Robust Metrics [8.90237460752114]
このトピックは、マルチタスク学習(multitask learning)と呼ばれる、シングルまたはPDE問題の集合を解決するための、幅広いメソッドとモデルを含んでいる。
PIMLは、PDE問題を解決する際に、大規模なデータの代わりに機械学習モデルのトレーニングプロセスに物理法則を組み込むことによって特徴付けられる。
論文 参考訳(メタデータ) (2024-02-16T23:21:40Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Robust optimal well control using an adaptive multi-grid reinforcement
learning framework [0.0]
強化学習は、堅牢な最適ウェルコントロール問題を解決するための有望なツールである。
提案するフレームワークは、最先端のモデルフリーポリシーベースのRLアルゴリズムを用いて実証される。
計算効率の顕著な向上は,提案したフレームワークを用いて,1つのファイングリッドの計算コストの約60~70%を削減した。
論文 参考訳(メタデータ) (2022-07-07T12:08:57Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。