論文の概要: Simplex-enabled Safe Continual Learning Machine
- arxiv url: http://arxiv.org/abs/2409.05898v2
- Date: Sun, 6 Oct 2024 03:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 22:27:40.740419
- Title: Simplex-enabled Safe Continual Learning Machine
- Title(参考訳): 簡易型安全連続学習機
- Authors: Hongpeng Cao, Yanbing Mao, Yihao Cai, Lui Sha, Marco Caccamo,
- Abstract要約: SeC-learning MachineはSimplexロジック(つまりシンプルさを使って複雑性を制御する)と物理制御深部強化学習(Phy-DRL)に基づいて構築されている。
これにより、HP(ハイパフォーマンス)、HA(ハイアシュアランス)、コーディネータを構成する。
- 参考スコア(独自算出の注目度): 2.0821683108324485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes the SeC-Learning Machine: Simplex-enabled safe continual learning for safety-critical autonomous systems. The SeC-learning machine is built on Simplex logic (that is, ``using simplicity to control complexity'') and physics-regulated deep reinforcement learning (Phy-DRL). The SeC-learning machine thus constitutes HP (high performance)-Student, HA (high assurance)-Teacher, and Coordinator. Specifically, the HP-Student is a pre-trained high-performance but not fully verified Phy-DRL, continuing to learn in a real plant to tune the action policy to be safe. In contrast, the HA-Teacher is a mission-reduced, physics-model-based, and verified design. As a complementary, HA-Teacher has two missions: backing up safety and correcting unsafe learning. The Coordinator triggers the interaction and the switch between HP-Student and HA-Teacher. Powered by the three interactive components, the SeC-learning machine can i) assure lifetime safety (i.e., safety guarantee in any continual-learning stage, regardless of HP-Student's success or convergence), ii) address the Sim2Real gap, and iii) learn to tolerate unknown unknowns in real plants. The experiments on a cart-pole system and a real quadruped robot demonstrate the distinguished features of the SeC-learning machine, compared with continual learning built on state-of-the-art safe DRL frameworks with approaches to addressing the Sim2Real gap.
- Abstract(参考訳): 本稿では, 安全クリティカルな自律システムを対象とした, シンプルで安全な連続学習システムSeC-Learning Machineを提案する。
SeC学習マシンはSimplexロジック(「複雑さを制御するためのシンプルさ」)と物理制御された深層強化学習(Phy-DRL)に基づいて構築されている。
これにより、HP(ハイパフォーマンス)、HA(ハイアシュアランス)、コーディネータを構成する。
具体的には、HP-Studentは事前訓練された高性能だが完全に検証されていないPhy-DRLで、実際の工場で学び続け、アクションポリシーを安全に調整している。
これとは対照的に、HA-Teacherはミッション再現型、物理モデルベース、そして検証された設計である。
HA-Teacherには2つのミッションがある。
Coordinatorは、HP-StudentとHA-Teacherのインタラクションとスイッチをトリガーする。
対話的な3つのコンポーネントで動く機械学習マシンSeC
一 生涯の安全を確保すること(すなわち、HP-Studentの成功又は収束にかかわらず、継続学習段階における安全を保証すること。)
ii)Sim2Realのギャップに対処し、
三 実の植物の未知を許容することを学ぶこと。
カートポールシステムと実四足歩行ロボットの実験は、Sim2Realギャップに対処するアプローチを備えた最先端の安全なDRLフレームワーク上に構築された連続学習と比較して、SeC学習マシンの際立った特徴を実証している。
関連論文リスト
- Safe Reinforcement Learning on the Constraint Manifold: Theory and Applications [21.98309272057848]
本稿では,学習に基づくロボットシステムに対して,複雑な安全制約を原則的に課す方法について述べる。
我々のアプローチは、安全ロボット構成の集合を表すConstraint Manifoldの概念に基づいている。
実世界のロボットエアホッケータスクにおいて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-13T20:55:15Z) - SELFI: Autonomous Self-Improvement with Reinforcement Learning for Social Navigation [54.97931304488993]
体験と対話し、改善する自己改善ロボットは、ロボットシステムの現実的な展開の鍵となる。
本研究では,オンラインロボット体験を活用したオンライン学習手法であるSELFIを提案する。
本研究では, 衝突回避の観点からの改善と, より社会的に順応する行動について報告する。
論文 参考訳(メタデータ) (2024-03-01T21:27:03Z) - Safe Reinforcement Learning in a Simulated Robotic Arm [0.0]
強化学習(RL)エージェントは、最適なポリシーを学ぶために環境を探索する必要がある。
本稿では,Pandaロボットアームを用いたカスタマイズ環境を構築することにより,安全なRLアルゴリズムの適用性を向上させる。
論文 参考訳(メタデータ) (2023-11-28T19:22:16Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Differentiable Control Barrier Functions for Vision-based End-to-End
Autonomous Driving [100.57791628642624]
本稿では,視覚に基づくエンドツーエンド自動運転のための安全保証学習フレームワークを提案する。
我々は、勾配降下によりエンドツーエンドに訓練された微分制御バリア関数(dCBF)を備えた学習システムを設計する。
論文 参考訳(メタデータ) (2022-03-04T16:14:33Z) - Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and
Generalization Guarantees [7.6347172725540995]
安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用する上で依然として課題である。
我々は,現実のギャップを,確率的に保証された安全対応政策分布で埋めるべく,Sim-to-Lab-to-Realを提案する。
論文 参考訳(メタデータ) (2022-01-20T18:41:01Z) - Curriculum Learning for Safe Mapless Navigation [71.55718344087657]
本研究は,カリキュラム学習(CL)に基づくアプローチがエージェントのパフォーマンスに与える影響について検討する。
特に、ロボットマップレスナビゲーションの安全性に焦点をあて、標準的なエンドツーエンド(E2E)トレーニング戦略と比較する。
論文 参考訳(メタデータ) (2021-12-23T12:30:36Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Safe Reinforcement Learning for Autonomous Vehicles through Parallel
Constrained Policy Optimization [20.913475536020247]
本稿では,2つの自律運転タスクに対して,Parallel Constrained Policy Optimization (PCPO)と呼ばれる安全強化学習アルゴリズムを提案する。
PCPOは、今日のアクター批判アーキテクチャを3成分学習フレームワークに拡張し、3つのニューラルネットワークを使用してポリシー関数、値関数、新たに追加されたリスク関数を近似する。
安全制約問題の実現性を確保するため、並列学習者は異なる状態空間を探索し、学習とポリシー更新を加速する。
論文 参考訳(メタデータ) (2020-03-03T02:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。