論文の概要: MPC-based Reinforcement Learning for Economic Problems with Application
to Battery Storage
- arxiv url: http://arxiv.org/abs/2104.02411v1
- Date: Tue, 6 Apr 2021 10:37:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 18:45:41.488709
- Title: MPC-based Reinforcement Learning for Economic Problems with Application
to Battery Storage
- Title(参考訳): 蓄電池応用による経済問題に対するMPCによる強化学習
- Authors: Arash Bahari Kordabad, Wenqi Cai, Sebastien Gros
- Abstract要約: モデル予測制御(MPC)に基づく政策近似に焦点を当てます。
政策勾配法は,政策が(ほぼ)バンバン構造を持つ場合,政策パラメータに意味のあるステップを生じさせることに苦慮する。
本稿では,内点法に基づくホモトピー戦略を提案し,学習中に方針を緩和する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we are interested in optimal control problems with purely
economic costs, which often yield optimal policies having a (nearly) bang-bang
structure. We focus on policy approximations based on Model Predictive Control
(MPC) and the use of the deterministic policy gradient method to optimize the
MPC closed-loop performance in the presence of unmodelled stochasticity or
model error. When the policy has a (nearly) bang-bang structure, we observe
that the policy gradient method can struggle to produce meaningful steps in the
policy parameters. To tackle this issue, we propose a homotopy strategy based
on the interior-point method, providing a relaxation of the policy during the
learning. We investigate a specific well-known battery storage problem, and
show that the proposed method delivers a homogeneous and faster learning than a
classical policy gradient approach.
- Abstract(参考訳): 本稿では,(ほぼ)バンバン構造を有する最適政策をしばしば生ずる純粋経済コストによる最適制御問題に関心を寄せる。
本稿では,モデル予測制御(MPC)に基づくポリシ近似と,モデル誤差やモデル誤差の存在下でのMPC閉ループ性能の最適化に決定論的ポリシー勾配法を用いることに着目する。
政策が(ほぼ)バンバン構造を持つ場合、政策勾配法は、政策パラメータに有意義なステップを生成するのに苦労する可能性がある。
この問題に対処するため,本研究では,内部点法に基づくホモトピー戦略を提案し,学習中の方針を緩和する。
本研究では,特定の電池貯蔵問題を調査し,本手法が従来手法よりも均質で高速な学習を実現することを示す。
関連論文リスト
- Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action [10.219627570276689]
我々は、一般的な状態と空間を持つマルコフ決定過程のクラスのためのフレームワークを開発する。
勾配法は非漸近条件で大域的最適ポリシーに収束することを示す。
その結果,多周期インベントリシステムにおける最初の複雑性が確立された。
論文 参考訳(メタデータ) (2024-09-25T17:56:02Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline [47.16115174891401]
本稿では,この分散問題を緩和するために,最適な行動依存ベースライン (Off-OAB) を用いた非政治政策勾配法を提案する。
提案手法は,OpenAI Gym と MuJoCo の6つの代表タスクに対して提案手法を評価する。
論文 参考訳(メタデータ) (2024-05-04T05:21:28Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Generalised Policy Improvement with Geometric Policy Composition [18.80807234471197]
本稿では、価値に基づく強化学習(RL)の欲求的アプローチと、モデルベースRLに典型的なフルプランニングアプローチとを補間する政策改善手法を提案する。
我々は,基本方針GHMの注意深く構成することにより,マルコフ政策の集合を一定の確率で切り換える非マルコフ政策を評価できることを示す。
そして、そのような非マルコフ政策の集合に一般化された政策改善(GPI)を適用して、その前駆体を全般的に上回る新しいマルコフ政策を得る。
論文 参考訳(メタデータ) (2022-06-17T12:52:13Z) - Variance Reduction based Partial Trajectory Reuse to Accelerate Policy
Gradient Optimization [3.621753051212441]
我々は,グリーンシミュレーション支援政策勾配(GS-PG)の考え方をマルコフ決定過程(MDP)の歴史的部分的再利用に拡張する。
本稿では、MLRに基づく政策勾配推定法を用いて、異なる行動方針の下で生成された歴史的状態決定遷移の情報を活用する。
論文 参考訳(メタデータ) (2022-05-06T01:42:28Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - A Study of Policy Gradient on a Class of Exactly Solvable Models [35.90565839381652]
我々は、厳密な解決可能なPOMDPの特別なクラスに対して、ポリシーパラメータの進化を連続状態マルコフ連鎖として検討する。
我々のアプローチはランダムウォーク理論、特にアフィンワイル群に大きく依存している。
我々は,政策勾配の確率収束を,値関数の局所的最大値に対して解析する。
論文 参考訳(メタデータ) (2020-11-03T17:27:53Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。