論文の概要: Reinforcement learning with distance-based incentive/penalty (DIP)
updates for highly constrained industrial control systems
- arxiv url: http://arxiv.org/abs/2011.10897v2
- Date: Wed, 19 May 2021 08:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 12:06:55.620901
- Title: Reinforcement learning with distance-based incentive/penalty (DIP)
updates for highly constrained industrial control systems
- Title(参考訳): 高制約産業制御システムのための距離ベースインセンティブ・ペナルティ(DIP)更新による強化学習
- Authors: Hyungjun Park, Daiki Min, Jong-hyun Ryu, Dong Gu Choi
- Abstract要約: エージェントが高度に制約されたアクション空間を扱えるような新しいRLアルゴリズムを考案する。
本アルゴリズムを産業制御問題,マイクログリッドシステム操作に適用し,その優位性を示す実験結果を得た。
- 参考スコア(独自算出の注目度): 3.3754780158324564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typical reinforcement learning (RL) methods show limited applicability for
real-world industrial control problems because industrial systems involve
various constraints and simultaneously require continuous and discrete control.
To overcome these challenges, we devise a novel RL algorithm that enables an
agent to handle a highly constrained action space. This algorithm has two main
features. First, we devise two distance-based Q-value update schemes, incentive
update and penalty update, in a distance-based incentive/penalty update
technique to enable the agent to decide discrete and continuous actions in the
feasible region and to update the value of these types of actions. Second, we
propose a method for defining the penalty cost as a shadow price-weighted
penalty. This approach affords two advantages compared to previous methods to
efficiently induce the agent to not select an infeasible action. We apply our
algorithm to an industrial control problem, microgrid system operation, and the
experimental results demonstrate its superiority.
- Abstract(参考訳): 典型的な強化学習(RL)法は,産業システムは様々な制約を伴い,同時に連続的かつ離散的な制御を必要とするため,実世界の産業制御問題に対して限定的な適用性を示す。
これらの課題を克服するために,エージェントが高度に制約された動作空間を処理できる新しいrlアルゴリズムを考案する。
このアルゴリズムには2つの主な特徴がある。
まず,距離に基づく2つのQ値更新方式,インセンティブ更新とペナルティ更新を遠隔ベースのインセンティブ・ペナルティ更新手法により考案し,エージェントが実行可能な領域における離散的かつ連続的な行動を決定し,これらの行動の値を更新できるようにする。
第2に,ペナルティコストをシャドープライス重み付けペナルティとして定義する方法を提案する。
このアプローチは、エージェントが実行不可能なアクションを選択しないように効率的に誘導する以前の方法に比べて2つの利点がある。
本アルゴリズムを産業制御問題,マイクログリッドシステム操作に適用し,その優位性を示す実験結果を得た。
関連論文リスト
- Neural Operators for Boundary Stabilization of Stop-and-go Traffic [1.90298817989995]
本稿では,ニューラル演算子を用いたPDE境界制御設計への新しいアプローチを提案する。
本稿では,トラフィックPDEシステムの安定化を目的とした2種類のニューラル演算子学習手法を提案する。
特定の近似精度条件下では,NOをベースとした閉ループシステムは実用的に安定であることが証明された。
論文 参考訳(メタデータ) (2023-12-16T08:18:39Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Interpreting Primal-Dual Algorithms for Constrained Multiagent
Reinforcement Learning [4.67306371596399]
ほとんどのC-MARLアルゴリズムは、報酬に付加されるペナルティ関数を通じて制約を強制するために、プリマル・デュアルアプローチを使用する。
制約関数をペナルティとして使用する標準的な慣行が安全性の弱い概念に繋がることを示す。
本稿では,制約付きマルチエージェント・アドバンスト・アクター・アトラクション (C-MAA2C) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-29T10:23:26Z) - Reliable Offline Model-based Optimization for Industrial Process Control [3.2996723916635267]
我々は、オフラインモデルに基づく最適化の現在の成功を産業プロセス制御問題に拡張する2つの重要な問題に対処する。
産業シナリオにおける正確な報酬計算を実現するために,条件付き生成逆数ネットワークのアンサンブルに基づく動的モデルを提案する。
論文 参考訳(メタデータ) (2022-05-15T10:27:49Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - A Dynamic Penalty Function Approach for Constraints-Handling in
Reinforcement Learning [0.0]
本研究では,制約付き最適制御問題の解法としてReinforcement Learning (RL) を用いる。
ニューラルネットワークをトレーニングして値(あるいはQ)関数を学習する際、制約境界における関数値の急激な変化に起因する計算問題に遭遇することができる。
この訓練中の難易度は収束問題につながり、最終的にはクローズドループ性能が低下する。
論文 参考訳(メタデータ) (2020-12-22T02:13:59Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。