論文の概要: Robust Constrained Reinforcement Learning for Continuous Control with
Model Misspecification
- arxiv url: http://arxiv.org/abs/2010.10644v4
- Date: Wed, 3 Mar 2021 09:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 05:44:33.505309
- Title: Robust Constrained Reinforcement Learning for Continuous Control with
Model Misspecification
- Title(参考訳): モデルミス種別連続制御のためのロバスト制約強化学習
- Authors: Daniel J. Mankowitz and Dan A. Calian and Rae Jeong and Cosmin
Paduraru and Nicolas Heess and Sumanth Dathathri and Martin Riedmiller and
Timothy Mann
- Abstract要約: 現実世界のシステムは、非定常性、摩耗・摩耗、未校正センサーなどの影響を受けやすい。
このような効果は、システムダイナミクスを効果的に摂動させ、同じドメインの摂動バージョンにデプロイすると、あるドメインでトレーニングされたポリシーがうまく動作しないようにする。
これは、将来の報酬を最大化する政策の能力と、それが制約を満たす範囲に影響を与える可能性がある。
実世界強化学習(Real World Reinforcement Learning, RWRL)から, この形態の誤特定を軽減し, 実世界強化学習(Real World Reinforcement Learning, RWRL)から複数の模擬Mujocoタスクにその性能を示すアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 26.488582821511972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world physical control systems are required to satisfy constraints
upon deployment. Furthermore, real-world systems are often subject to effects
such as non-stationarity, wear-and-tear, uncalibrated sensors and so on. Such
effects effectively perturb the system dynamics and can cause a policy trained
successfully in one domain to perform poorly when deployed to a perturbed
version of the same domain. This can affect a policy's ability to maximize
future rewards as well as the extent to which it satisfies constraints. We
refer to this as constrained model misspecification. We present an algorithm
that mitigates this form of misspecification, and showcase its performance in
multiple simulated Mujoco tasks from the Real World Reinforcement Learning
(RWRL) suite.
- Abstract(参考訳): 多くの実世界の物理制御システムは、展開時の制約を満たすために必要である。
さらに、現実世界のシステムは、非定常性、摩耗・摩耗、未校正センサーなどの影響を受けやすい。
このような影響はシステムダイナミクスを効果的に摂動させ、同じドメインの摂動バージョンにデプロイした場合に、あるドメインでうまく訓練されたポリシーが性能を低下させる可能性がある。
これは、将来の報酬を最大化するポリシーの能力と、それが制約を満たす程度に影響する可能性がある。
これを制約付きモデル誤特定と呼ぶ。
本稿では,この方式の誤用を軽減し,実世界強化学習(RWRL)スイートから複数の模擬Mujocoタスクにその性能を示すアルゴリズムを提案する。
関連論文リスト
- Neural Internal Model Control: Learning a Robust Control Policy via Predictive Error Feedback [16.46487826869775]
本稿では,モデルベース制御とRLベース制御を統合し,ロバスト性を高めるニューラル内部モデル制御を提案する。
我々のフレームワークは、剛体力学にニュートン・オイラー方程式を適用することで予測モデルを合理化し、複雑な高次元非線形性を捉える必要がなくなる。
本研究では,四足歩行ロボットと四足歩行ロボットにおけるフレームワークの有効性を実証し,最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T07:07:42Z) - Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent Approach [1.519321208145928]
本稿では,決定論的連続制御タスクにおいて,深部RLポリシーの単一状態への摂動について検討する。
システム状態に対する小さな摂動がその後の状態と報酬軌道に大きな影響を与えるため、RLポリシーは決定論的にカオスとなる可能性がある。
本稿では,最大リアプノフ指数正規化を実装したDreamer V3アーキテクチャの改良を提案する。
論文 参考訳(メタデータ) (2024-10-14T16:16:43Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - An Adaptive Fuzzy Reinforcement Learning Cooperative Approach for the
Autonomous Control of Flock Systems [4.961066282705832]
この研究は、群集システムの自律制御に適応的な分散ロバスト性技術を導入している。
比較的柔軟な構造は、様々な目的を同時に狙うオンラインファジィ強化学習スキームに基づいている。
動的障害に直面した場合のレジリエンスに加えて、アルゴリズムはフィードバック信号としてエージェントの位置以上のものを必要としない。
論文 参考訳(メタデータ) (2023-03-17T13:07:35Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Failure-averse Active Learning for Physics-constrained Systems [7.701064815584088]
本研究では,システムを管理する暗黙の物理制約を考慮した,新しい能動的学習手法を開発した。
提案手法は, 対象モデルの分散を低減するために安全な領域を探索し, 制約の確率モデルを利用して探索可能な領域を拡張することを目的としている。
この方法は、Tsai-wu基準を用いた材料故障を考慮した複合胴体組立プロセスに適用され、明示的な故障領域の知識を必要とせず、ゼロフェイルを達成することができる。
論文 参考訳(メタデータ) (2021-10-27T14:01:03Z) - From Simulation to Real World Maneuver Execution using Deep
Reinforcement Learning [69.23334811890919]
深層強化学習(Deep Reinforcement Learning)は、さまざまな分野における多くの制御タスクを解決できることが証明されている。
これは主に、シミュレーションデータと実世界のデータ間のドメイン適応の欠如と、トレインデータセットとテストデータセットの区別の欠如による。
本稿では,エージェントが同時に訓練される複数の環境に基づくシステムを提案する。
論文 参考訳(メタデータ) (2020-05-13T14:22:20Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。