論文の概要: Controlgym: Large-Scale Control Environments for Benchmarking Reinforcement Learning Algorithms
- arxiv url: http://arxiv.org/abs/2311.18736v2
- Date: Tue, 23 Apr 2024 18:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-25 16:25:00.316460
- Title: Controlgym: Large-Scale Control Environments for Benchmarking Reinforcement Learning Algorithms
- Title(参考訳): Controlgym: ベンチマーク強化学習アルゴリズムのための大規模制御環境
- Authors: Xiangyuan Zhang, Weichao Mao, Saviz Mowlavi, Mouhacine Benosman, Tamer Başar,
- Abstract要約: 我々は、36の産業制御設定と10の無限次元偏微分方程式(PDE)に基づく制御問題からなる制御ギームを導入する。
controlgymはOpenAI Gym/Gymnasiumフレームワークに統合されている。
- 参考スコア(独自算出の注目度): 5.7648266677851865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce controlgym, a library of thirty-six industrial control settings, and ten infinite-dimensional partial differential equation (PDE)-based control problems. Integrated within the OpenAI Gym/Gymnasium (Gym) framework, controlgym allows direct applications of standard reinforcement learning (RL) algorithms like stable-baselines3. Our control environments complement those in Gym with continuous, unbounded action and observation spaces, motivated by real-world control applications. Moreover, the PDE control environments uniquely allow the users to extend the state dimensionality of the system to infinity while preserving the intrinsic dynamics. This feature is crucial for evaluating the scalability of RL algorithms for control. This project serves the learning for dynamics & control (L4DC) community, aiming to explore key questions: the convergence of RL algorithms in learning control policies; the stability and robustness issues of learning-based controllers; and the scalability of RL algorithms to high- and potentially infinite-dimensional systems. We open-source the controlgym project at https://github.com/xiangyuan-zhang/controlgym.
- Abstract(参考訳): そこで本研究では, 産業用制御システム36のライブラリと, 無限次元偏微分方程式(PDE)に基づく10の制御問題を紹介する。
OpenAI Gym/Gymnasium(Gym)フレームワークに統合されたコントロールジャムは、Stable-baselines3のような標準強化学習(RL)アルゴリズムの直接的な適用を可能にする。
我々の制御環境は、現実の制御アプリケーションによって動機づけられた、連続的かつ非有界な行動および観測空間でGymの環境を補完する。
さらに、PDE制御環境は、ユーザが本質的なダイナミクスを保ちながらシステムの状態次元を無限大に拡張することを可能にする。
この機能は制御のためのRLアルゴリズムのスケーラビリティを評価するために重要である。
このプロジェクトは、学習制御ポリシにおけるRLアルゴリズムの収束、学習ベースのコントローラの安定性と堅牢性の問題、高次元および潜在的無限次元システムへのRLアルゴリズムのスケーラビリティなど、重要な課題を探求することを目的とした、力学と制御(L4DC)コミュニティの学習を支援する。
controlgymプロジェクトはhttps://github.com/xiangyuan-zhang/controlgym.comでオープンソース化しました。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - A Safe Reinforcement Learning Algorithm for Supervisory Control of Power
Plants [7.1771300511732585]
モデルフリー強化学習(RL)は、制御タスクのための有望なソリューションとして登場した。
本稿では,監督制御のための近似ポリシ最適化に基づく確率制約付きRLアルゴリズムを提案する。
本手法は, 原子力プラント設計における負荷追従操作において, 違反距離と違反率の最小化を実現するものである。
論文 参考訳(メタデータ) (2024-01-23T17:52:49Z) - CT-DQN: Control-Tutored Deep Reinforcement Learning [4.395396671038298]
Control-Tutored Deep Q-Networks (CT-DQN)は、制御チューターを利用して学習時間を短縮するDeep Reinforcement Learningアルゴリズムである。
我々は,OpenAI Gymの逆振り子,月面着陸機,カーレースの3つのシナリオに対するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-02T17:59:43Z) - Deep Reinforcement Learning with Shallow Controllers: An Experimental
Application to PID Tuning [3.9146761527401424]
実際の物理システム上での最先端RLアルゴリズムの実現における課題について述べる。
私たちのアプローチの核心は、トレーニング可能なRLポリシーとしてPIDコントローラを使用することです。
論文 参考訳(メタデータ) (2021-11-13T18:48:28Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - safe-control-gym: a Unified Benchmark Suite for Safe Learning-based
Control and Reinforcement Learning [3.9258421820410225]
我々はSafe-control-gymと呼ばれるオープンソースのベンチマークスイートを提案する。
当社の出発点はOpenAIのGym APIで、強化学習研究における事実上の標準のひとつです。
制御性能, データの効率, 安全性を定量的に比較するために, 安全な制御ジャムをどう使うかを示す。
論文 参考訳(メタデータ) (2021-09-13T21:09:28Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Reinforcement Learning of Structured Control for Linear Systems with
Unknown State Matrix [0.0]
十分な安定性と性能保証と合わせて強化学習(RL)のアイデアを提示する。
このフレームワークによって実現される特別な制御構造は、多くの大規模サイバー物理システムで必要とされる分散学習制御である。
論文 参考訳(メタデータ) (2020-11-02T17:04:34Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。