論文の概要: A Reinforcement Learning Approach to Parameter Selection for Distributed
Optimization in Power Systems
- arxiv url: http://arxiv.org/abs/2110.11991v1
- Date: Fri, 22 Oct 2021 18:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 18:20:57.734068
- Title: A Reinforcement Learning Approach to Parameter Selection for Distributed
Optimization in Power Systems
- Title(参考訳): 分散最適化のためのパラメータ選択のための強化学習手法
- Authors: Sihan Zeng, Alyssa Kody, Youngdae Kim, Kibaek Kim, Daniel K. Molzahn
- Abstract要約: 本稿では,ADMMによるAC最適電力流(ACOPF)問題に対する適応的ペナルティパラメータ選択ポリシーを開発する。
我々のRLポリシは一般化可能性の保証を示し、見知らぬロードスキームの下では良好に機能し、ラインやジェネレータの目に見えない損失の下でも機能することを示す。
この研究は、パワーシステムアプリケーションのためのADMMにおけるパラメータ選択にRLを使用するための概念実証を提供する。
- 参考スコア(独自算出の注目度): 1.1199585259018459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing penetration of distributed energy resources, distributed
optimization algorithms have attracted significant attention for power systems
applications due to their potential for superior scalability, privacy, and
robustness to a single point-of-failure. The Alternating Direction Method of
Multipliers (ADMM) is a popular distributed optimization algorithm; however,
its convergence performance is highly dependent on the selection of penalty
parameters, which are usually chosen heuristically. In this work, we use
reinforcement learning (RL) to develop an adaptive penalty parameter selection
policy for the AC optimal power flow (ACOPF) problem solved via ADMM with the
goal of minimizing the number of iterations until convergence. We train our RL
policy using deep Q-learning, and show that this policy can result in
significantly accelerated convergence (up to a 59% reduction in the number of
iterations compared to existing, curvature-informed penalty parameter selection
methods). Furthermore, we show that our RL policy demonstrates promise for
generalizability, performing well under unseen loading schemes as well as under
unseen losses of lines and generators (up to a 50% reduction in iterations).
This work thus provides a proof-of-concept for using RL for parameter selection
in ADMM for power systems applications.
- Abstract(参考訳): 分散エネルギー資源の普及に伴い、分散最適化アルゴリズムは、単一障害点に対する優れたスケーラビリティ、プライバシー、堅牢性の可能性から、電力システムアプリケーションに大きな注目を集めている。
Alternating Direction Method of Multipliers (ADMM) は、一般的な分散最適化アルゴリズムであるが、その収束性能は、通常ヒューリスティックに選択されるペナルティパラメータの選択に大きく依存している。
本研究では,ac最適潮流(acopf)問題に対する適応的ペナルティパラメータ選択ポリシをadmmを用いて開発し,収束までのイテレーション数を最小化することを目的として強化学習(rl)を行った。
深層Q-ラーニングを用いてRLポリシーを訓練し、このポリシーが収束を著しく加速することを示す(既存の曲率インフォームドペナルティパラメータ選択法と比較して、反復回数を最大59%削減できる)。
さらに,我々のrlポリシーが汎用性への期待を実証し,未認識のロードスキームや線やジェネレータの無意識な損失(最大50%のイテレーション削減)下での動作を実証することを示した。
この研究は、パワーシステムアプリケーションのためのADMMにおけるパラメータ選択にRLを使用するための概念実証を提供する。
関連論文リスト
- Reinforcement learning for anisotropic p-adaptation and error estimation in high-order solvers [0.37109226820205005]
強化学習(RL)を用いた高次h/pにおける異方性p適応の自動化と最適化のための新しい手法を提案する。
我々は,シミュレーションを行う際の最小限のオーバーコストを示す,主解法から切り離されたオフライントレーニング手法を開発した。
我々は、局所的な離散化誤差の定量化を可能にする、安価なRLベースの誤差推定手法を導出する。
論文 参考訳(メタデータ) (2024-07-26T17:55:23Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Learning Regionally Decentralized AC Optimal Power Flows with ADMM [16.843799157160063]
本稿では,AC-OPFを解くためのADMMの収束を高速化する上で,機械学習がいかに役立つかを検討する。
ML-ADMMと呼ばれる新しい分散機械学習手法を提案し、各エージェントはディープラーニングを使用して結合ブランチのコンセンサスパラメータを学習する。
論文 参考訳(メタデータ) (2022-05-08T05:30:35Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - A Reinforcement Learning Formulation of the Lyapunov Optimization:
Application to Edge Computing Systems with Queue Stability [12.693545159861857]
Lyapunov最適化に対する深層強化学習(DRL)に基づくアプローチは,待ち行列安定性を維持しながら平均値のペナルティを最小化すると考えられる。
DRLに基づくRL手法は,待ち行列安定性を持つエッジコンピューティングシステムにおける資源配分に適用され,数値計算によりその動作が成功したことを示す。
論文 参考訳(メタデータ) (2020-12-14T05:55:26Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。