論文の概要: Stepping Out of the Shadows: Reinforcement Learning in Shadow Mode
- arxiv url: http://arxiv.org/abs/2410.23419v1
- Date: Wed, 30 Oct 2024 19:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:14.788160
- Title: Stepping Out of the Shadows: Reinforcement Learning in Shadow Mode
- Title(参考訳): シャドウのステップアウト:シャドウモードにおける強化学習
- Authors: Philipp Gassert, Matthias Althoff,
- Abstract要約: 強化学習は、多くのサイバー物理システムにとってまだ競争力がない。
我々は、従来の制御器の補助により、いわゆるシャドウモードで補強剤を訓練する。
シャドーモードでは、エージェントは、タスクを学ぶためのアクションサンプルと好ましい状態へのガイダンスを提供するために、コントローラに依存する。
- 参考スコア(独自算出の注目度): 8.017543518311196
- License:
- Abstract: Reinforcement learning (RL) is not yet competitive for many cyber-physical systems, such as robotics, process automation, and power systems, as training on a system with physical components cannot be accelerated, and simulation models do not exist or suffer from a large simulation-to-reality gap. During the long training time, expensive equipment cannot be used and might even be damaged due to inappropriate actions of the reinforcement learning agent. Our novel approach addresses exactly this problem: We train the reinforcement agent in a so-called shadow mode with the assistance of an existing conventional controller, which does not have to be trained and instantaneously performs reasonably well. In shadow mode, the agent relies on the controller to provide action samples and guidance towards favourable states to learn the task, while simultaneously estimating for which states the learned agent will receive a higher reward than the conventional controller. The RL agent will then control the system for these states and all other regions remain under the control of the existing controller. Over time, the RL agent will take over for an increasing amount of states, while leaving control to the baseline, where it cannot surpass its performance. Thus, we keep regret during training low and improve the performance compared to only using conventional controllers or reinforcement learning. We present and evaluate two mechanisms for deciding whether to use the RL agent or the conventional controller. The usefulness of our approach is demonstrated for a reach-avoid task, for which we are able to effectively train an agent, where standard approaches fail.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、ロボット工学、プロセス自動化、パワーシステムなど多くのサイバー物理システムにおいてまだ競争力がない。
長い訓練期間において、高価な機器は使用できず、強化学習剤の不適切な作用により損傷を受けることもある。
我々は、従来のコントローラの助けを借りて、いわゆるシャドウモードで補強剤を訓練する。
シャドーモードでは、エージェントは、従来のコントローラよりも高い報酬を受ける状態を推定しながら、タスクを学ぶためのアクションサンプルと好ましい状態へのガイダンスを提供するために、コントローラに依存する。
RLエージェントはこれらの状態のシステムを制御し、他のすべてのリージョンは既存のコントローラの制御下にある。
時間が経つにつれて、RLエージェントは、その性能を超えることができないベースラインに制御を残しながら、より多くの状態を引き継ぐことになる。
このように、従来のコントローラや強化学習よりも、トレーニングの低さを後悔し、パフォーマンスを改善しています。
本稿では、RLエージェントと従来のコントローラのどちらを使うかを決定するための2つのメカニズムを提示し、評価する。
提案手法の有用性は,標準アプローチが失敗するエージェントを効果的に訓練できるリーチ回避タスクに対して実証される。
関連論文リスト
- Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - Reinforcement Learning for UAV control with Policy and Reward Shaping [0.7127008801193563]
本研究では,RLエージェントが報酬形成と政策形成を同時に行うことで,ドローンを制御できるように指導する。
その結果,両手法を同時に訓練したエージェントは,政策ベースアプローチのみを用いて訓練したエージェントよりも報酬が低いことがわかった。
論文 参考訳(メタデータ) (2022-12-06T14:46:13Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Skip Training for Multi-Agent Reinforcement Learning Controller for
Industrial Wave Energy Converters [94.84709449845352]
近年のウェーブ・エナジー・コンバータ(WEC)は、発電を最大化するために複数の脚と発電機を備えている。
従来のコントローラは複雑な波のパターンを捕捉する制限を示しており、コントローラはエネルギー捕獲を効率的に最大化する必要がある。
本稿では,従来のスプリングダンパよりも優れたマルチエージェント強化学習コントローラ(MARL)を提案する。
論文 参考訳(メタデータ) (2022-09-13T00:20:31Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Zero-Shot Uncertainty-Aware Deployment of Simulation Trained Policies on
Real-World Robots [17.710172337571617]
深層強化学習(RL)エージェントは、トレーニング環境と実行環境のミスマッチにより、現実世界にデプロイされた時にエラーを起こす傾向がある。
本稿では,RLポリシーと従来型の手作りコントローラの強みを組み合わせた,新しい不確実性対応デプロイメント戦略を提案する。
実世界の2つの連続制御タスクにおいて、BCFはスタンドアロンのポリシーとコントローラの両方に優れる有望な結果を示す。
論文 参考訳(メタデータ) (2021-12-10T02:13:01Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Improving Robustness of Reinforcement Learning for Power System Control
with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。
具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。
本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:50:34Z) - Regularizing Action Policies for Smooth Control with Reinforcement
Learning [47.312768123967025]
Conditioning for Action Policy Smoothness(CAPS)は、アクションポリシーの効果的な直感的な正規化である。
capsは、ニューラルネットワークコントローラの学習状態-動作マッピングの滑らかさを一貫して改善する。
実システムでテストしたところ、クアドロタードローンのコントローラーの滑らかさが改善され、消費電力は80%近く削減された。
論文 参考訳(メタデータ) (2020-12-11T21:35:24Z) - Robustifying Reinforcement Learning Agents via Action Space Adversarial
Training [23.284452331353894]
機械学習(ML)を応用したサイバー物理システム(CPS)の採用は、現代社会の様々な分野に広まっている。
深層強化学習(DRL)の最近の研究は、様々なデータ駆動型意思決定と制御アプリケーションにおいてその利点を実証している。
動作空間摂動の影響を受けやすいDRLエージェントを, 対向訓練により, 同様の摂動に対して堅牢化できることを示す。
論文 参考訳(メタデータ) (2020-07-14T16:50:02Z) - Learning Force Control for Contact-rich Manipulation Tasks with Rigid
Position-controlled Robots [9.815369993136512]
従来の力制御とRL手法を組み合わせた学習に基づく力制御フレームワークを提案する。
このような制御方式の中で,位置制御ロボットによる力制御を実現するために,従来の2つの手法を実装した。
最後に,実剛性ロボットマニピュレータを用いた操作作業において,RLエージェントを安全に訓練するためのフェールセーフ機構を開発した。
論文 参考訳(メタデータ) (2020-03-02T01:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。