論文の概要: Safe multi-agent deep reinforcement learning for joint bidding and
maintenance scheduling of generation units
- arxiv url: http://arxiv.org/abs/2112.10459v1
- Date: Mon, 20 Dec 2021 11:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 23:53:00.593863
- Title: Safe multi-agent deep reinforcement learning for joint bidding and
maintenance scheduling of generation units
- Title(参考訳): 共同入札のための安全マルチエージェント深部強化学習と生成ユニットのメンテナンススケジューリング
- Authors: Pegah Rokhforoz, Olga Fink
- Abstract要約: 本稿では,入札決定生成のための安全強化学習アルゴリズムとユニットメンテナンススケジューリングを提案する。
この問題において、各ユニットは、予防的メンテナンスをスケジューリングすることで、その信頼性を同時に維持しつつ、収益を最大化する入札戦略を見つけることを目的としている。
提案手法は,システム安全性の制約を同時に満たしながら,技術手法の他の状況と比較して高い利益を達成することができる。
- 参考スコア(独自算出の注目度): 2.322461721824713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a safe reinforcement learning algorithm for generation
bidding decisions and unit maintenance scheduling in a competitive electricity
market environment. In this problem, each unit aims to find a bidding strategy
that maximizes its revenue while concurrently retaining its reliability by
scheduling preventive maintenance. The maintenance scheduling provides some
safety constraints which should be satisfied at all times. Satisfying the
critical safety and reliability constraints while the generation units have an
incomplete information of each others' bidding strategy is a challenging
problem. Bi-level optimization and reinforcement learning are state of the art
approaches for solving this type of problems. However, neither bi-level
optimization nor reinforcement learning can handle the challenges of incomplete
information and critical safety constraints. To tackle these challenges, we
propose the safe deep deterministic policy gradient reinforcement learning
algorithm which is based on a combination of reinforcement learning and a
predicted safety filter. The case study demonstrates that the proposed approach
can achieve a higher profit compared to other state of the art methods while
concurrently satisfying the system safety constraints.
- Abstract(参考訳): 本稿では,競争型電力市場環境における入札決定とユニットメンテナンススケジューリングのための安全強化学習アルゴリズムを提案する。
この問題において、各ユニットは収益を最大化する入札戦略を探し、同時に、予防的保守のスケジューリングによって信頼性を保ち続けることを目指している。
メンテナンスのスケジューリングは、常に満足すべき安全上の制約を提供します。
生成ユニットが互いの入札戦略の不完全な情報を持っている間、臨界安全性と信頼性の制約を満足することは難しい問題である。
バイレベル最適化と強化学習は、この種の問題を解決するための最先端のアプローチである。
しかし、二段階最適化や強化学習は、不完全な情報や重要な安全性の制約に対処できない。
これらの課題に対処するために,強化学習と予測安全フィルタを組み合わせた,安全な深い決定論的ポリシー勾配強化学習アルゴリズムを提案する。
本ケーススタディでは,提案手法がシステム安全性の制約を満たしながら,他の技術手法と比較して高い利益を得られることを実証する。
関連論文リスト
- Feasibility Consistent Representation Learning for Safe Reinforcement Learning [25.258227763316228]
FCSRL(Fasibility Consistent Safe Reinforcement Learning)という新しいフレームワークを導入する。
本フレームワークは、表現学習と実現可能性指向の目的を組み合わせることで、安全RLのために生の状態から安全関連情報を識別し、抽出する。
本手法は,従来の表現学習ベースラインよりも安全性に配慮した埋め込みを学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-20T01:37:21Z) - Gradient Shaping for Multi-Constraint Safe Reinforcement Learning [31.297400160104853]
オンライン安全強化学習(RL)は、環境との対話を通じて制約を満たしながらタスク効率を最大化する政策を訓練する。
本稿では,MCセーフなRLアルゴリズムのための統一フレームワークを提案する。
一般ラグランジアンベースの安全なRLアルゴリズムのためのグラディエント・シェーピング(GradS)法を導入し、報酬と制約満足度の両方の観点からトレーニング効率を向上させる。
論文 参考訳(メタデータ) (2023-12-23T00:55:09Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Robust Safe Reinforcement Learning under Adversarial Disturbances [12.145611442959602]
現実世界の制御タスクに強化学習を適用する場合、安全が主な関心事である。
既存の安全な強化学習アルゴリズムは、外部の障害をほとんど考慮しない。
本稿では,最悪のケース障害に対処する堅牢な安全強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T05:34:46Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safety and Liveness Guarantees through Reach-Avoid Reinforcement
Learning [24.56889192688925]
リーチ・アビド最適制御問題は、自律ロボットシステムの安全性と生存性保証の中心である。
性能目標を用いた最適制御問題を概ね解くための強化学習手法の最近の成功は、その認証問題への適用を魅力的にしている。
最近の研究は、安全型問題を扱うための強化学習機械の拡張を約束しており、その目的は和ではなく、時間とともに最小限(または最大)である。
論文 参考訳(メタデータ) (2021-12-23T00:44:38Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。