論文の概要: MPC-based Reinforcement Learning for Economic Problems with Application
to Battery Storage
- arxiv url: http://arxiv.org/abs/2104.02411v1
- Date: Tue, 6 Apr 2021 10:37:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 18:45:41.488709
- Title: MPC-based Reinforcement Learning for Economic Problems with Application
to Battery Storage
- Title(参考訳): 蓄電池応用による経済問題に対するMPCによる強化学習
- Authors: Arash Bahari Kordabad, Wenqi Cai, Sebastien Gros
- Abstract要約: モデル予測制御(MPC)に基づく政策近似に焦点を当てます。
政策勾配法は,政策が(ほぼ)バンバン構造を持つ場合,政策パラメータに意味のあるステップを生じさせることに苦慮する。
本稿では,内点法に基づくホモトピー戦略を提案し,学習中に方針を緩和する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we are interested in optimal control problems with purely
economic costs, which often yield optimal policies having a (nearly) bang-bang
structure. We focus on policy approximations based on Model Predictive Control
(MPC) and the use of the deterministic policy gradient method to optimize the
MPC closed-loop performance in the presence of unmodelled stochasticity or
model error. When the policy has a (nearly) bang-bang structure, we observe
that the policy gradient method can struggle to produce meaningful steps in the
policy parameters. To tackle this issue, we propose a homotopy strategy based
on the interior-point method, providing a relaxation of the policy during the
learning. We investigate a specific well-known battery storage problem, and
show that the proposed method delivers a homogeneous and faster learning than a
classical policy gradient approach.
- Abstract(参考訳): 本稿では,(ほぼ)バンバン構造を有する最適政策をしばしば生ずる純粋経済コストによる最適制御問題に関心を寄せる。
本稿では,モデル予測制御(MPC)に基づくポリシ近似と,モデル誤差やモデル誤差の存在下でのMPC閉ループ性能の最適化に決定論的ポリシー勾配法を用いることに着目する。
政策が(ほぼ)バンバン構造を持つ場合、政策勾配法は、政策パラメータに有意義なステップを生成するのに苦労する可能性がある。
この問題に対処するため,本研究では,内部点法に基づくホモトピー戦略を提案し,学習中の方針を緩和する。
本研究では,特定の電池貯蔵問題を調査し,本手法が従来手法よりも均質で高速な学習を実現することを示す。
関連論文リスト
- POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy
Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。
本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。
特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-09T03:01:13Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Generalised Policy Improvement with Geometric Policy Composition [18.80807234471197]
本稿では、価値に基づく強化学習(RL)の欲求的アプローチと、モデルベースRLに典型的なフルプランニングアプローチとを補間する政策改善手法を提案する。
我々は,基本方針GHMの注意深く構成することにより,マルコフ政策の集合を一定の確率で切り換える非マルコフ政策を評価できることを示す。
そして、そのような非マルコフ政策の集合に一般化された政策改善(GPI)を適用して、その前駆体を全般的に上回る新しいマルコフ政策を得る。
論文 参考訳(メタデータ) (2022-06-17T12:52:13Z) - Variance Reduction based Partial Trajectory Reuse to Accelerate Policy
Gradient Optimization [3.621753051212441]
我々は,グリーンシミュレーション支援政策勾配(GS-PG)の考え方をマルコフ決定過程(MDP)の歴史的部分的再利用に拡張する。
本稿では、MLRに基づく政策勾配推定法を用いて、異なる行動方針の下で生成された歴史的状態決定遷移の情報を活用する。
論文 参考訳(メタデータ) (2022-05-06T01:42:28Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy
Gradients [93.65993173260318]
報酬を最大化するポリシーを訓練し、そのアクションを通じて特定の機密状態変数の開示を最小化するタスクを考える。
この設定は、シーケンシャルな意思決定のためのプライバシーにおける現実世界の問題をどのようにカバーするかを例に示します。
実験の結果,本手法は敏感な状態を隠蔽する方針が得られた。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - A Study of Policy Gradient on a Class of Exactly Solvable Models [35.90565839381652]
我々は、厳密な解決可能なPOMDPの特別なクラスに対して、ポリシーパラメータの進化を連続状態マルコフ連鎖として検討する。
我々のアプローチはランダムウォーク理論、特にアフィンワイル群に大きく依存している。
我々は,政策勾配の確率収束を,値関数の局所的最大値に対して解析する。
論文 参考訳(メタデータ) (2020-11-03T17:27:53Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。