論文の概要: Reinforcement learning with distance-based incentive/penalty (DIP)
updates for highly constrained industrial control systems
- arxiv url: http://arxiv.org/abs/2011.10897v2
- Date: Wed, 19 May 2021 08:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 12:06:55.620901
- Title: Reinforcement learning with distance-based incentive/penalty (DIP)
updates for highly constrained industrial control systems
- Title(参考訳): 高制約産業制御システムのための距離ベースインセンティブ・ペナルティ(DIP)更新による強化学習
- Authors: Hyungjun Park, Daiki Min, Jong-hyun Ryu, Dong Gu Choi
- Abstract要約: エージェントが高度に制約されたアクション空間を扱えるような新しいRLアルゴリズムを考案する。
本アルゴリズムを産業制御問題,マイクログリッドシステム操作に適用し,その優位性を示す実験結果を得た。
- 参考スコア(独自算出の注目度): 3.3754780158324564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typical reinforcement learning (RL) methods show limited applicability for
real-world industrial control problems because industrial systems involve
various constraints and simultaneously require continuous and discrete control.
To overcome these challenges, we devise a novel RL algorithm that enables an
agent to handle a highly constrained action space. This algorithm has two main
features. First, we devise two distance-based Q-value update schemes, incentive
update and penalty update, in a distance-based incentive/penalty update
technique to enable the agent to decide discrete and continuous actions in the
feasible region and to update the value of these types of actions. Second, we
propose a method for defining the penalty cost as a shadow price-weighted
penalty. This approach affords two advantages compared to previous methods to
efficiently induce the agent to not select an infeasible action. We apply our
algorithm to an industrial control problem, microgrid system operation, and the
experimental results demonstrate its superiority.
- Abstract(参考訳): 典型的な強化学習(RL)法は,産業システムは様々な制約を伴い,同時に連続的かつ離散的な制御を必要とするため,実世界の産業制御問題に対して限定的な適用性を示す。
これらの課題を克服するために,エージェントが高度に制約された動作空間を処理できる新しいrlアルゴリズムを考案する。
このアルゴリズムには2つの主な特徴がある。
まず,距離に基づく2つのQ値更新方式,インセンティブ更新とペナルティ更新を遠隔ベースのインセンティブ・ペナルティ更新手法により考案し,エージェントが実行可能な領域における離散的かつ連続的な行動を決定し,これらの行動の値を更新できるようにする。
第2に,ペナルティコストをシャドープライス重み付けペナルティとして定義する方法を提案する。
このアプローチは、エージェントが実行不可能なアクションを選択しないように効率的に誘導する以前の方法に比べて2つの利点がある。
本アルゴリズムを産業制御問題,マイクログリッドシステム操作に適用し,その優位性を示す実験結果を得た。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Variational Autoencoders for exteroceptive perception in reinforcement learning-based collision avoidance [0.0]
Deep Reinforcement Learning (DRL) は有望な制御フレームワークとして登場した。
現在のDRLアルゴリズムは、ほぼ最適ポリシーを見つけるために不均等な計算資源を必要とする。
本稿では,海洋制御システムにおける提案手法の総合的な探索について述べる。
論文 参考訳(メタデータ) (2024-03-31T09:25:28Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Neural Operators for Boundary Stabilization of Stop-and-go Traffic [1.90298817989995]
本稿では,ニューラル演算子を用いたPDE境界制御設計への新しいアプローチを提案する。
本稿では,トラフィックPDEシステムの安定化を目的とした2種類のニューラル演算子学習手法を提案する。
特定の近似精度条件下では,NOをベースとした閉ループシステムは実用的に安定であることが証明された。
論文 参考訳(メタデータ) (2023-12-16T08:18:39Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Interpreting Primal-Dual Algorithms for Constrained Multiagent
Reinforcement Learning [4.67306371596399]
ほとんどのC-MARLアルゴリズムは、報酬に付加されるペナルティ関数を通じて制約を強制するために、プリマル・デュアルアプローチを使用する。
制約関数をペナルティとして使用する標準的な慣行が安全性の弱い概念に繋がることを示す。
本稿では,制約付きマルチエージェント・アドバンスト・アクター・アトラクション (C-MAA2C) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-29T10:23:26Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - A Dynamic Penalty Function Approach for Constraints-Handling in
Reinforcement Learning [0.0]
本研究では,制約付き最適制御問題の解法としてReinforcement Learning (RL) を用いる。
ニューラルネットワークをトレーニングして値(あるいはQ)関数を学習する際、制約境界における関数値の急激な変化に起因する計算問題に遭遇することができる。
この訓練中の難易度は収束問題につながり、最終的にはクローズドループ性能が低下する。
論文 参考訳(メタデータ) (2020-12-22T02:13:59Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。