Fugu-MT 論文翻訳(概要): A Reinforcement Learning Approach to Parameter Selection for Distributed Optimization in Power Systems

論文の概要: A Reinforcement Learning Approach to Parameter Selection for Distributed Optimization in Power Systems

arxiv url: http://arxiv.org/abs/2110.11991v1
Date: Fri, 22 Oct 2021 18:17:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-26 18:20:57.734068
Title: A Reinforcement Learning Approach to Parameter Selection for Distributed Optimization in Power Systems
Title（参考訳）: 分散最適化のためのパラメータ選択のための強化学習手法
Authors: Sihan Zeng, Alyssa Kody, Youngdae Kim, Kibaek Kim, Daniel K. Molzahn
Abstract要約: 本稿では,ADMMによるAC最適電力流(ACOPF)問題に対する適応的ペナルティパラメータ選択ポリシーを開発する。我々のRLポリシは一般化可能性の保証を示し、見知らぬロードスキームの下では良好に機能し、ラインやジェネレータの目に見えない損失の下でも機能することを示す。この研究は、パワーシステムアプリケーションのためのADMMにおけるパラメータ選択にRLを使用するための概念実証を提供する。
参考スコア（独自算出の注目度）: 1.1199585259018459
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the increasing penetration of distributed energy resources, distributed optimization algorithms have attracted significant attention for power systems applications due to their potential for superior scalability, privacy, and robustness to a single point-of-failure. The Alternating Direction Method of Multipliers (ADMM) is a popular distributed optimization algorithm; however, its convergence performance is highly dependent on the selection of penalty parameters, which are usually chosen heuristically. In this work, we use reinforcement learning (RL) to develop an adaptive penalty parameter selection policy for the AC optimal power flow (ACOPF) problem solved via ADMM with the goal of minimizing the number of iterations until convergence. We train our RL policy using deep Q-learning, and show that this policy can result in significantly accelerated convergence (up to a 59% reduction in the number of iterations compared to existing, curvature-informed penalty parameter selection methods). Furthermore, we show that our RL policy demonstrates promise for generalizability, performing well under unseen loading schemes as well as under unseen losses of lines and generators (up to a 50% reduction in iterations). This work thus provides a proof-of-concept for using RL for parameter selection in ADMM for power systems applications.
Abstract（参考訳）: 分散エネルギー資源の普及に伴い、分散最適化アルゴリズムは、単一障害点に対する優れたスケーラビリティ、プライバシー、堅牢性の可能性から、電力システムアプリケーションに大きな注目を集めている。 Alternating Direction Method of Multipliers (ADMM) は、一般的な分散最適化アルゴリズムであるが、その収束性能は、通常ヒューリスティックに選択されるペナルティパラメータの選択に大きく依存している。本研究では,ac最適潮流(acopf)問題に対する適応的ペナルティパラメータ選択ポリシをadmmを用いて開発し,収束までのイテレーション数を最小化することを目的として強化学習(rl)を行った。深層Q-ラーニングを用いてRLポリシーを訓練し、このポリシーが収束を著しく加速することを示す(既存の曲率インフォームドペナルティパラメータ選択法と比較して、反復回数を最大59%削減できる)。さらに,我々のrlポリシーが汎用性への期待を実証し,未認識のロードスキームや線やジェネレータの無意識な損失(最大50%のイテレーション削減)下での動作を実証することを示した。この研究は、パワーシステムアプリケーションのためのADMMにおけるパラメータ選択にRLを使用するための概念実証を提供する。

関連論文リスト

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文参考訳（メタデータ） (2025-03-02T13:43:53Z)
Predictive Lagrangian Optimization for Constrained Reinforcement Learning [15.082498910832529]
制約付き最適化は、複雑な制御タスクに対処するための強化学習で一般的に見られる。本稿では,制約付き最適化とフィードバック制御システムとの接続を構築するための,より汎用的な等価フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-25T13:39:45Z)
Reinforcement learning for anisotropic p-adaptation and error estimation in high-order solvers [0.37109226820205005]
強化学習(RL)を用いた高次h/pにおける異方性p適応の自動化と最適化のための新しい手法を提案する。我々は,シミュレーションを行う際の最小限のオーバーコストを示す,主解法から切り離されたオフライントレーニング手法を開発した。我々は、局所的な離散化誤差の定量化を可能にする、安価なRLベースの誤差推定手法を導出する。
論文参考訳（メタデータ） (2024-07-26T17:55:23Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文参考訳（メタデータ） (2023-05-09T23:51:24Z)
Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。 Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文参考訳（メタデータ） (2022-12-29T18:25:01Z)
Learning Regionally Decentralized AC Optimal Power Flows with ADMM [16.843799157160063]
本稿では,AC-OPFを解くためのADMMの収束を高速化する上で,機械学習がいかに役立つかを検討する。 ML-ADMMと呼ばれる新しい分散機械学習手法を提案し、各エージェントはディープラーニングを使用して結合ブランチのコンセンサスパラメータを学習する。
論文参考訳（メタデータ） (2022-05-08T05:30:35Z)
False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。 SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文参考訳（メタデータ） (2021-10-24T15:34:03Z)
OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。 OptiDICEは最先端の手法と競合して動作することを示す。
論文参考訳（メタデータ） (2021-06-21T00:43:30Z)
A Reinforcement Learning Formulation of the Lyapunov Optimization: Application to Edge Computing Systems with Queue Stability [12.693545159861857]
Lyapunov最適化に対する深層強化学習(DRL)に基づくアプローチは,待ち行列安定性を維持しながら平均値のペナルティを最小化すると考えられる。 DRLに基づくRL手法は,待ち行列安定性を持つエッジコンピューティングシステムにおける資源配分に適用され,数値計算によりその動作が成功したことを示す。
論文参考訳（メタデータ） (2020-12-14T05:55:26Z)
Optimization-driven Deep Reinforcement Learning for Robust Beamforming in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文参考訳（メタデータ） (2020-05-25T01:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。