論文の概要: MAGICS: Adversarial RL with Minimax Actors Guided by Implicit Critic Stackelberg for Convergent Neural Synthesis of Robot Safety
- arxiv url: http://arxiv.org/abs/2409.13867v1
- Date: Fri, 20 Sep 2024 19:45:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 04:50:50.844798
- Title: MAGICS: Adversarial RL with Minimax Actors Guided by Implicit Critic Stackelberg for Convergent Neural Synthesis of Robot Safety
- Title(参考訳): MAGICS:ロボット安全の収束型ニューラルシンセサイザーのための暗黙の批判的スタックルバーグによるミニマックスアクター付き対向RL
- Authors: Justin Wang, Haimin Hu, Duy Phuong Nguyen, Jaime Fernández Fisac,
- Abstract要約: Inlicit Critic Stackelberg (MAGICS)により導かれるMinimaxアクターは、最小値平衡解への局所収束を保証する新しい逆強化学習(RL)アルゴリズムである。
我々は、MAGICSが最先端のニューラルセーフティ合成法よりも優れたロバスト制御ポリシーを実現できることを示す。
- 参考スコア(独自算出の注目度): 1.3353672155935326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While robust optimal control theory provides a rigorous framework to compute robot control policies that are provably safe, it struggles to scale to high-dimensional problems, leading to increased use of deep learning for tractable synthesis of robot safety. Unfortunately, existing neural safety synthesis methods often lack convergence guarantees and solution interpretability. In this paper, we present Minimax Actors Guided by Implicit Critic Stackelberg (MAGICS), a novel adversarial reinforcement learning (RL) algorithm that guarantees local convergence to a minimax equilibrium solution. We then build on this approach to provide local convergence guarantees for a general deep RL-based robot safety synthesis algorithm. Through both simulation studies on OpenAI Gym environments and hardware experiments with a 36-dimensional quadruped robot, we show that MAGICS can yield robust control policies outperforming the state-of-the-art neural safety synthesis methods.
- Abstract(参考訳): 頑健な最適制御理論は、確実に安全であるロボット制御ポリシーを計算するための厳密な枠組みを提供するが、高次元問題へのスケールに苦慮し、ロボット安全性の抽出可能な合成にディープラーニングの利用が増大する。
残念ながら、既存の神経安全合成法は収束保証と解解釈性に欠けることが多い。
本稿では、最小値平衡解への局所収束を保証する新しい逆相関強化学習(RL)アルゴリズムである、Implicit Critic Stackelberg(MAGICS)により導かれるミニマックスアクターについて述べる。
次に,本手法を用いて,一般の深部RLに基づくロボット安全合成アルゴリズムの局所収束保証を実現する。
3次元四足歩行ロボットによるOpenAI Gym環境のシミュレーション実験とハードウェア実験の両方を通して、MAGICSは最先端の神経安全合成法よりも堅牢な制御ポリシーが得られることを示した。
関連論文リスト
- Safe Reinforcement Learning on the Constraint Manifold: Theory and Applications [21.98309272057848]
本稿では,学習に基づくロボットシステムに対して,複雑な安全制約を原則的に課す方法について述べる。
我々のアプローチは、安全ロボット構成の集合を表すConstraint Manifoldの概念に基づいている。
実世界のロボットエアホッケータスクにおいて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-13T20:55:15Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Imitation Learning of Nonlinear Model Predictive Control for Flexible Robots [6.501150406218775]
模擬学習と予測安全フィルタを用いたモデル予測制御(NMPC)の安全な近似のためのフレームワークを提案する。
NMPCと比較して、シミュレーションにおいて3次元フレキシブルロボットアームを制御する場合、計算時間は8倍以上改善されている。
高速で安全な近似NMPCの開発は、産業における柔軟なロボットの採用を加速する可能性を秘めている。
論文 参考訳(メタデータ) (2022-12-06T12:54:08Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safety-aware Policy Optimisation for Autonomous Racing [17.10371721305536]
ハミルトン・ヤコビ(HJ)到達可能性理論を制約付きマルコフ決定過程(CMDP)フレームワークに導入する。
我々は,HJの安全性を視覚的文脈で直接学習できることを実証した。
我々は、最近リリースされた高忠実な自律走行環境であるSafety GymやLearning-to-Race (L2R)など、いくつかのベンチマークタスクにおいて、本手法の評価を行った。
論文 参考訳(メタデータ) (2021-10-14T20:15:45Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。