論文の概要: A Reinforcement Learning Approach to Parameter Selection for Distributed
Optimization in Power Systems
- arxiv url: http://arxiv.org/abs/2110.11991v1
- Date: Fri, 22 Oct 2021 18:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 18:20:57.734068
- Title: A Reinforcement Learning Approach to Parameter Selection for Distributed
Optimization in Power Systems
- Title(参考訳): 分散最適化のためのパラメータ選択のための強化学習手法
- Authors: Sihan Zeng, Alyssa Kody, Youngdae Kim, Kibaek Kim, Daniel K. Molzahn
- Abstract要約: 本稿では,ADMMによるAC最適電力流(ACOPF)問題に対する適応的ペナルティパラメータ選択ポリシーを開発する。
我々のRLポリシは一般化可能性の保証を示し、見知らぬロードスキームの下では良好に機能し、ラインやジェネレータの目に見えない損失の下でも機能することを示す。
この研究は、パワーシステムアプリケーションのためのADMMにおけるパラメータ選択にRLを使用するための概念実証を提供する。
- 参考スコア(独自算出の注目度): 1.1199585259018459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing penetration of distributed energy resources, distributed
optimization algorithms have attracted significant attention for power systems
applications due to their potential for superior scalability, privacy, and
robustness to a single point-of-failure. The Alternating Direction Method of
Multipliers (ADMM) is a popular distributed optimization algorithm; however,
its convergence performance is highly dependent on the selection of penalty
parameters, which are usually chosen heuristically. In this work, we use
reinforcement learning (RL) to develop an adaptive penalty parameter selection
policy for the AC optimal power flow (ACOPF) problem solved via ADMM with the
goal of minimizing the number of iterations until convergence. We train our RL
policy using deep Q-learning, and show that this policy can result in
significantly accelerated convergence (up to a 59% reduction in the number of
iterations compared to existing, curvature-informed penalty parameter selection
methods). Furthermore, we show that our RL policy demonstrates promise for
generalizability, performing well under unseen loading schemes as well as under
unseen losses of lines and generators (up to a 50% reduction in iterations).
This work thus provides a proof-of-concept for using RL for parameter selection
in ADMM for power systems applications.
- Abstract(参考訳): 分散エネルギー資源の普及に伴い、分散最適化アルゴリズムは、単一障害点に対する優れたスケーラビリティ、プライバシー、堅牢性の可能性から、電力システムアプリケーションに大きな注目を集めている。
Alternating Direction Method of Multipliers (ADMM) は、一般的な分散最適化アルゴリズムであるが、その収束性能は、通常ヒューリスティックに選択されるペナルティパラメータの選択に大きく依存している。
本研究では,ac最適潮流(acopf)問題に対する適応的ペナルティパラメータ選択ポリシをadmmを用いて開発し,収束までのイテレーション数を最小化することを目的として強化学習(rl)を行った。
深層Q-ラーニングを用いてRLポリシーを訓練し、このポリシーが収束を著しく加速することを示す(既存の曲率インフォームドペナルティパラメータ選択法と比較して、反復回数を最大59%削減できる)。
さらに,我々のrlポリシーが汎用性への期待を実証し,未認識のロードスキームや線やジェネレータの無意識な損失(最大50%のイテレーション削減)下での動作を実証することを示した。
この研究は、パワーシステムアプリケーションのためのADMMにおけるパラメータ選択にRLを使用するための概念実証を提供する。
関連論文リスト
- Predictive Lagrangian Optimization for Constrained Reinforcement Learning [15.082498910832529]
制約付き最適化は、複雑な制御タスクに対処するための強化学習で一般的に見られる。
本稿では,制約付き最適化とフィードバック制御システムとの接続を構築するための,より汎用的な等価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-25T13:39:45Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Learning Regionally Decentralized AC Optimal Power Flows with ADMM [16.843799157160063]
本稿では,AC-OPFを解くためのADMMの収束を高速化する上で,機械学習がいかに役立つかを検討する。
ML-ADMMと呼ばれる新しい分散機械学習手法を提案し、各エージェントはディープラーニングを使用して結合ブランチのコンセンサスパラメータを学習する。
論文 参考訳(メタデータ) (2022-05-08T05:30:35Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - A Reinforcement Learning Formulation of the Lyapunov Optimization:
Application to Edge Computing Systems with Queue Stability [12.693545159861857]
Lyapunov最適化に対する深層強化学習(DRL)に基づくアプローチは,待ち行列安定性を維持しながら平均値のペナルティを最小化すると考えられる。
DRLに基づくRL手法は,待ち行列安定性を持つエッジコンピューティングシステムにおける資源配分に適用され,数値計算によりその動作が成功したことを示す。
論文 参考訳(メタデータ) (2020-12-14T05:55:26Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。