Fugu-MT 論文翻訳(概要): Reinforcement learning with distance-based incentive/penalty (DIP) updates for highly constrained industrial control systems

論文の概要: Reinforcement learning with distance-based incentive/penalty (DIP) updates for highly constrained industrial control systems

arxiv url: http://arxiv.org/abs/2011.10897v2
Date: Wed, 19 May 2021 08:16:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-22 12:06:55.620901
Title: Reinforcement learning with distance-based incentive/penalty (DIP) updates for highly constrained industrial control systems
Title（参考訳）: 高制約産業制御システムのための距離ベースインセンティブ・ペナルティ(DIP)更新による強化学習
Authors: Hyungjun Park, Daiki Min, Jong-hyun Ryu, Dong Gu Choi
Abstract要約: エージェントが高度に制約されたアクション空間を扱えるような新しいRLアルゴリズムを考案する。本アルゴリズムを産業制御問題,マイクログリッドシステム操作に適用し,その優位性を示す実験結果を得た。
参考スコア（独自算出の注目度）: 3.3754780158324564
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Typical reinforcement learning (RL) methods show limited applicability for real-world industrial control problems because industrial systems involve various constraints and simultaneously require continuous and discrete control. To overcome these challenges, we devise a novel RL algorithm that enables an agent to handle a highly constrained action space. This algorithm has two main features. First, we devise two distance-based Q-value update schemes, incentive update and penalty update, in a distance-based incentive/penalty update technique to enable the agent to decide discrete and continuous actions in the feasible region and to update the value of these types of actions. Second, we propose a method for defining the penalty cost as a shadow price-weighted penalty. This approach affords two advantages compared to previous methods to efficiently induce the agent to not select an infeasible action. We apply our algorithm to an industrial control problem, microgrid system operation, and the experimental results demonstrate its superiority.
Abstract（参考訳）: 典型的な強化学習(RL)法は,産業システムは様々な制約を伴い,同時に連続的かつ離散的な制御を必要とするため,実世界の産業制御問題に対して限定的な適用性を示す。これらの課題を克服するために,エージェントが高度に制約された動作空間を処理できる新しいrlアルゴリズムを考案する。このアルゴリズムには2つの主な特徴がある。まず,距離に基づく2つのQ値更新方式,インセンティブ更新とペナルティ更新を遠隔ベースのインセンティブ・ペナルティ更新手法により考案し,エージェントが実行可能な領域における離散的かつ連続的な行動を決定し,これらの行動の値を更新できるようにする。第2に,ペナルティコストをシャドープライス重み付けペナルティとして定義する方法を提案する。このアプローチは、エージェントが実行不可能なアクションを選択しないように効率的に誘導する以前の方法に比べて2つの利点がある。本アルゴリズムを産業制御問題,マイクログリッドシステム操作に適用し,その優位性を示す実験結果を得た。

関連論文リスト

Novel Multi-Agent Action Masked Deep Reinforcement Learning for General Industrial Assembly Lines Balancing Problems [1.8434042562191815]
本稿では,マルコフ決定過程 (MDP) として定式化された汎用産業組立ラインの数学的モデルを提案する。提案モデルは,タスクとリソーススケジューリングを最適化するために,深層強化学習(DRL)エージェントを訓練するための仮想環境を構築するために使用される。
論文参考訳（メタデータ） (2025-07-22T14:34:36Z)
Efficient Beam Selection for ISAC in Cell-Free Massive MIMO via Digital Twin-Assisted Deep Reinforcement Learning [37.540612510652174]
我々は、誤報率制約の下で複数の受信APに対して共同目標検出確率の分布を導出する。次に、マルコフ決定過程(MDP)としてビーム選択手順を定式化する。リアルタイムエージェント環境相互作用の高コスト化とそれに伴うリスクを解消するために,新しいディジタルツイン(DT)支援オフラインDRL手法を提案する。
論文参考訳（メタデータ） (2025-06-23T12:17:57Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
Efficient Action-Constrained Reinforcement Learning via Acceptance-Rejection Method and Augmented MDPs [13.443196224057658]
行動制約強化学習(ACRL)は、行動制約違反をゼロとする制御ポリシーを学習するための一般的なフレームワークである。本稿では、標準制約のないRL法をACRLに適用できる汎用的で効率的なフレームワークを提案する。提案手法は,現状のACRL法よりも高速なトレーニング,制約満足度の向上,アクション推論時間の短縮を実現している。
論文参考訳（メタデータ） (2025-03-17T08:41:43Z)
Leveraging Constraint Violation Signals For Action-Constrained Reinforcement Learning [13.332006760984122]
ACRL(Action-Constrained Reinforcement Learning)は、ポリシーネットワークの後にプロジェクション層を用いて行動を修正する。近年,潜在変数と実行可能行動の異なるマッピングを学習するために,生成モデルを訓練する手法が提案されている。
論文参考訳（メタデータ） (2025-02-08T12:58:26Z)
Diffusion Predictive Control with Constraints [51.91057765703533]
制約付き拡散予測制御(DPCC) トレーニングデータから逸脱可能な、明示的な状態と行動制約を持つ拡散制御アルゴリズム。 DPCCは,学習した制御タスクの性能を維持しつつ,新しいテスト時間制約を満たす上で,既存の手法よりも優れるロボットマニピュレータのシミュレーションを通して示す。
論文参考訳（メタデータ） (2024-12-12T15:10:22Z)
Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文参考訳（メタデータ） (2024-04-05T17:58:37Z)
Variational Autoencoders for exteroceptive perception in reinforcement learning-based collision avoidance [0.0]
Deep Reinforcement Learning (DRL) は有望な制御フレームワークとして登場した。現在のDRLアルゴリズムは、ほぼ最適ポリシーを見つけるために不均等な計算資源を必要とする。本稿では,海洋制御システムにおける提案手法の総合的な探索について述べる。
論文参考訳（メタデータ） (2024-03-31T09:25:28Z)
Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文参考訳（メタデータ） (2024-02-23T23:22:06Z)
Neural Operators for Boundary Stabilization of Stop-and-go Traffic [1.90298817989995]
本稿では,ニューラル演算子を用いたPDE境界制御設計への新しいアプローチを提案する。本稿では,トラフィックPDEシステムの安定化を目的とした2種類のニューラル演算子学習手法を提案する。特定の近似精度条件下では,NOをベースとした閉ループシステムは実用的に安定であることが証明された。
論文参考訳（メタデータ） (2023-12-16T08:18:39Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Interpreting Primal-Dual Algorithms for Constrained Multiagent Reinforcement Learning [4.67306371596399]
ほとんどのC-MARLアルゴリズムは、報酬に付加されるペナルティ関数を通じて制約を強制するために、プリマル・デュアルアプローチを使用する。制約関数をペナルティとして使用する標準的な慣行が安全性の弱い概念に繋がることを示す。本稿では,制約付きマルチエージェント・アドバンスト・アクター・アトラクション (C-MAA2C) アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-11-29T10:23:26Z)
Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。強化学習と潜在変数生成モデルの組み合わせを利用する。最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文参考訳（メタデータ） (2022-04-18T22:02:32Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)
A Dynamic Penalty Function Approach for Constraints-Handling in Reinforcement Learning [0.0]
本研究では,制約付き最適制御問題の解法としてReinforcement Learning (RL) を用いる。ニューラルネットワークをトレーニングして値(あるいはQ)関数を学習する際、制約境界における関数値の急激な変化に起因する計算問題に遭遇することができる。この訓練中の難易度は収束問題につながり、最終的にはクローズドループ性能が低下する。
論文参考訳（メタデータ） (2020-12-22T02:13:59Z)
Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文参考訳（メタデータ） (2020-08-26T20:56:16Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。