論文の概要: Hysteresis-Based RL: Robustifying Reinforcement Learning-based Control
Policies via Hybrid Control
- arxiv url: http://arxiv.org/abs/2204.00654v1
- Date: Fri, 1 Apr 2022 18:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 14:15:48.257606
- Title: Hysteresis-Based RL: Robustifying Reinforcement Learning-based Control
Policies via Hybrid Control
- Title(参考訳): ヒステリシスに基づくRL:ハイブリッド制御による強化学習に基づくロバスト化制御
- Authors: Jan de Priester, Ricardo G. Sanfelice, Nathan van de Wouw
- Abstract要約: 本稿では,PPO(Proximal Policy Optimization)アルゴリズムとDQN(Deep Q-Network)アルゴリズムによるロバスト性に関する2つの制御問題について述べる。
これらの問題により、Hysteresis-based RL (HyRL) と呼ばれる新しいハイブリッドアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.4295327319351703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is a promising approach for deriving control
policies for complex systems. As we show in two control problems, the derived
policies from using the Proximal Policy Optimization (PPO) and Deep Q-Network
(DQN) algorithms may lack robustness guarantees. Motivated by these issues, we
propose a new hybrid algorithm, which we call Hysteresis-Based RL (HyRL),
augmenting an existing RL algorithm with hysteresis switching and two stages of
learning. We illustrate its properties in two examples for which PPO and DQN
fail.
- Abstract(参考訳): 強化学習(rl)は、複雑なシステムの制御ポリシーを導出するための有望なアプローチである。
2つの制御問題で示されるように、PPO(Proximal Policy Optimization)アルゴリズムとDQN(Deep Q-Network)アルゴリズムは、堅牢性の保証を欠いている可能性がある。
これらの問題により,ヒステリシスに基づくRL(Hysteresis-based RL)と呼ばれるハイブリッドアルゴリズムが提案され,ヒステリシススイッチングと学習の2段階を含む既存のRLアルゴリズムが強化された。
PPO と DQN が失敗する2つの例でその性質を説明する。
関連論文リスト
- Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Evolutionary Strategy Guided Reinforcement Learning via MultiBuffer
Communication [0.0]
本稿では、進化的戦略と呼ばれる特定の進化的アルゴリズムのファミリーと、非政治的な深層強化学習アルゴリズムTD3を組み合わせた新しい進化的強化学習モデルを提案する。
提案アルゴリズムは,MuJoCo制御タスク上で,現在の進化強化学習アルゴリズムと競合して動作することを示す。
論文 参考訳(メタデータ) (2023-06-20T13:41:57Z) - Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Quantile-Based Deep Reinforcement Learning using Two-Timescale Policy
Gradient Algorithms [0.0]
ニューラルネットワークによるポリシー制御動作のパラメータ化を行い,QPO(Quantile-Based Policy Optimization)と呼ばれる新しいポリシー勾配アルゴリズムを提案する。
数値計算の結果,提案アルゴリズムは量子的基準の下で既存のベースラインアルゴリズムより優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-05-12T04:47:02Z) - Processing Network Controls via Deep Reinforcement Learning [0.0]
論文は、理論上の正当化と、高度なポリシー勾配アルゴリズムの実用化に関するものである。
政策改善バウンダリは、APGアルゴリズムの理論的正当性において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-05-01T04:34:21Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。