論文の概要: Real-DRL: Teach and Learn in Reality
- arxiv url: http://arxiv.org/abs/2511.00112v1
- Date: Thu, 30 Oct 2025 22:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.613854
- Title: Real-DRL: Teach and Learn in Reality
- Title(参考訳): Real-DRL: 現実の教育と学習
- Authors: Yanbing Mao, Yihao Cai, Lui Sha,
- Abstract要約: 本稿では,安全クリティカルな自律システムのためのリアルタイムDRLフレームワークについて紹介する。
Real-DRLは、DRL-Student、PHY-Teacher、Trigerの3つのインタラクティブコンポーネントで構成されている。
TriggerはDRL-StudentとPHY-Teacherの相互作用を管理する。
- 参考スコア(独自算出の注目度): 3.719580143660037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the Real-DRL framework for safety-critical autonomous systems, enabling runtime learning of a deep reinforcement learning (DRL) agent to develop safe and high-performance action policies in real plants (i.e., real physical systems to be controlled), while prioritizing safety! The Real-DRL consists of three interactive components: a DRL-Student, a PHY-Teacher, and a Trigger. The DRL-Student is a DRL agent that innovates in the dual self-learning and teaching-to-learn paradigm and the real-time safety-informed batch sampling. On the other hand, PHY-Teacher is a physics-model-based design of action policies that focuses solely on safety-critical functions. PHY-Teacher is novel in its real-time patch for two key missions: i) fostering the teaching-to-learn paradigm for DRL-Student and ii) backing up the safety of real plants. The Trigger manages the interaction between the DRL-Student and the PHY-Teacher. Powered by the three interactive components, the Real-DRL can effectively address safety challenges that arise from the unknown unknowns and the Sim2Real gap. Additionally, Real-DRL notably features i) assured safety, ii) automatic hierarchy learning (i.e., safety-first learning and then high-performance learning), and iii) safety-informed batch sampling to address the learning experience imbalance caused by corner cases. Experiments with a real quadruped robot, a quadruped robot in NVIDIA Isaac Gym, and a cart-pole system, along with comparisons and ablation studies, demonstrate the Real-DRL's effectiveness and unique features.
- Abstract(参考訳): 本稿では, 安全クリティカルな自律システムのためのリアルタイムDRLフレームワークについて紹介し, 安全性を優先しつつ, 実プラントにおける安全かつ高性能なアクションポリシー(即ち, 実際の物理的システムを制御するための安全かつ高性能なアクションポリシー)を開発できる, 深層強化学習(DRL)エージェントのランタイム学習を実現する。
Real-DRLは、DRL-Student、PHY-Teacher、Trigerの3つのインタラクティブコンポーネントで構成されている。
DRL-Student(DRL-Student)はDRLエージェントである。
一方、PHY-Teacherは物理モデルに基づくアクションポリシーの設計であり、安全クリティカルな機能にのみ焦点をあてている。
PHY-Teacherは、2つの重要なミッションのリアルタイムパッチで新しい。
一 DRL-Studentの学習パラダイムの育成及び教育
二 本物の植物の安全性を支えていること。
TriggerはDRL-StudentとPHY-Teacherの相互作用を管理する。
3つの対話的なコンポーネントによって、Real-DRLは未知の未知とSim2Realギャップから生じる安全上の課題に効果的に対処することができる。
さらにReal-DRLの特徴
一 安全を確保すること
二 自動階層学習(安全第一学習、次いで高性能学習)及び
三 コーナーケースによる学習経験の不均衡に対処するための安全インフォームドバッチサンプリング。
実際の四足歩行ロボット、NVIDIA Isaac Gymの四足歩行ロボット、カートポールシステムによる実験と、比較とアブレーションの研究は、Real-DRLの有効性とユニークな特徴を実証している。
関連論文リスト
- xSRL: Safety-Aware Explainable Reinforcement Learning -- Safety as a Product of Explainability [8.016667413960995]
我々は、RLエージェントの振る舞いを包括的に理解するために、ローカルとグローバルの両方の説明を統合するフレームワークであるxSRLを提案する。
xSRLはまた、敵攻撃を通じてポリシーの脆弱性を識別し、再トレーニングせずにエージェントのデバッグとパッチを行うツールを提供する。
我々の実験とユーザスタディは、RLシステムの安全性を高めるためのxSRLの有効性を実証し、現実のデプロイメントにおいてより信頼性と信頼性を高めた。
論文 参考訳(メタデータ) (2024-12-26T18:19:04Z) - ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Simplex-enabled Safe Continual Learning Machine [2.0821683108324485]
SeC-learning MachineはSimplexロジック(つまりシンプルさを使って複雑性を制御する)と物理制御深部強化学習(Phy-DRL)に基づいて構築されている。
これにより、HP(ハイパフォーマンス)、HA(ハイアシュアランス)、コーディネータを構成する。
論文 参考訳(メタデータ) (2024-09-05T16:03:00Z) - Grow Your Limits: Continuous Improvement with Real-World RL for Robotic
Locomotion [66.69666636971922]
本稿では,ロボットの学習過程における探索を調節するポリシー正規化フレームワークであるAPRLを提案する。
APRLは四足歩行ロボットを、数分で完全に現実世界を歩けるように効率よく学習する。
論文 参考訳(メタデータ) (2023-10-26T17:51:46Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - Physics-Regulated Deep Reinforcement Learning: Invariant Embeddings [2.2338458480599637]
Phy-DRLは物理制御された安全クリティカルな自律システムのための深層強化学習フレームワークである。
The Phy-DRL exhibits 1) a mathematicallyprovable safety guarantee and 2) strict compliance of critic and actor network with physics knowledge with the action-value function and action policy。
論文 参考訳(メタデータ) (2023-05-26T04:20:02Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。