論文の概要: Physical Deep Reinforcement Learning: Safety and Unknown Unknowns
- arxiv url: http://arxiv.org/abs/2305.16614v1
- Date: Fri, 26 May 2023 04:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:11:18.159167
- Title: Physical Deep Reinforcement Learning: Safety and Unknown Unknowns
- Title(参考訳): 深層強化学習 : 安全性と未知の未知
- Authors: Hongpeng Cao, Yanbing Mao, Lui Sha, Marco Caccamo
- Abstract要約: Phy-DRLは、物理モデルによる安全クリティカルな自律システムのための深層強化学習フレームワークである。
同時設計により、Phy-DRLは、1)未知の未知の障害を許容し、2)数学的に証明可能な安全性と安定性を保証し、3)ベルマン方程式と報酬に関する物理的な知識を厳密に遵守することができる。
- 参考スコア(独自算出の注目度): 2.4436713014295157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose the Phy-DRL: a physics-model-regulated deep
reinforcement learning framework for safety-critical autonomous systems. The
Phy-DRL is unique in three innovations: i) proactive unknown-unknowns training,
ii) conjunctive residual control (i.e., integration of data-driven control and
physics-model-based control) and safety- \& stability-sensitive reward, and
iii) physics-model-based neural network editing, including link editing and
activation editing. Thanks to the concurrent designs, the Phy-DRL is able to 1)
tolerate unknown-unknowns disturbances, 2) guarantee mathematically provable
safety and stability, and 3) strictly comply with physical knowledge pertaining
to Bellman equation and reward. The effectiveness of the Phy-DRL is finally
validated by an inverted pendulum and a quadruped robot. The experimental
results demonstrate that compared with purely data-driven DRL, Phy-DRL features
remarkably fewer learning parameters, accelerated training and enlarged reward,
while offering enhanced model robustness and safety assurance.
- Abstract(参考訳): 本稿では,安全クリティカル自律システムのための物理モデル制御型深層強化学習フレームワークphy-drlを提案する。
Phy-DRLは3つのイノベーションでユニークです。
一 積極的な未知の訓練
二 連結的残留制御(データ駆動制御と物理モデルに基づく制御の統合)及び安全性− \&安定性に敏感な報酬
三 リンク編集及びアクティベーション編集を含む物理モデルに基づくニューラルネットワークの編集
コンカレントデザインのおかげで、Phy-DRLは実現しました。
1)未知の乱れを許容する。
2)数学的に証明可能な安全性と安定性を保証し、
3)ベルマン方程式と報酬に関する物理知識を厳密に遵守する。
Phy-DRLの有効性は、最終的に倒立振子と四足歩行ロボットによって検証される。
実験結果から,データ駆動型drlと比較して,phy-drlは学習パラメータやトレーニングの高速化,報酬の拡大が著しく削減され,モデルの堅牢性と安全性の保証が向上した。
関連論文リスト
- Compressing Deep Reinforcement Learning Networks with a Dynamic
Structured Pruning Method for Autonomous Driving [63.155562267383864]
深部強化学習(DRL)は複雑な自律運転シナリオにおいて顕著な成功を収めている。
DRLモデルは、必然的に高いメモリ消費と計算をもたらし、リソース限定の自動運転デバイスへの広範な展開を妨げる。
そこで本研究では,DRLモデルの非重要なニューロンを段階的に除去する,新しい動的構造化プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T09:00:30Z) - RACER: Rational Artificial Intelligence Car-following-model Enhanced by
Reality [51.244807332133696]
本稿では,アダプティブ・クルーズ・コントロール(ACC)運転行動を予測する,最先端の深層学習車追従モデルであるRACERを紹介する。
従来のモデルとは異なり、RACERは実走行の重要な要素であるRDC(Rational Driving Constraints)を効果的に統合している。
RACERはアクセラレーション、ベロシティ、スペーシングといった主要なメトリクスを網羅し、ゼロ違反を登録する。
論文 参考訳(メタデータ) (2023-12-12T06:21:30Z) - Stabilizing RLHF through Advantage Model and Selective Rehearsal [57.504894664689]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、これらのモデルを人間の価値観や好みに合わせることは依然として大きな課題である。
この課題は、報酬のハッキングや破滅的な忘れなど、さまざまな不安定さによって特徴づけられる。
1) 報酬ハッキング防止のために, スコアを直接モデル化し, タスク間のスコア分布を規制するアドバンテージモデル, 2) PPOトレーニングと知識リハーサルのためのデータを戦略的に選択することで, 悲惨な忘れを緩和する選択リハーサルを提案する。
論文 参考訳(メタデータ) (2023-09-18T23:06:32Z) - Reinforcement Learning for Safe Robot Control using Control Lyapunov
Barrier Functions [9.690491406456307]
強化学習(RL)は、ロボットの複雑な制御タスクを管理する際の優れた性能を示す。
本稿では、データのみに基づいて安全性と到達可能性を分析するために、制御型リアプノフバリア関数(CLBF)について検討する。
また、Lyapunov barrier actor-critic (LBAC) を提案し、データに基づく安全性と到達性条件の近似を満足するコントローラを探索した。
論文 参考訳(メタデータ) (2023-05-16T20:27:02Z) - Physical Deep Reinforcement Learning Towards Safety Guarantee [2.4436713014295157]
Phy-DRLは物理的な強化学習フレームワークである。
物理報酬と残留制御は、(数学的に)証明可能な安全性と安定性の保証をPhy-DRLに付与する。
Phy-DRLは安全性と安定性が保証され,堅牢性が向上し,トレーニングが著しく向上し,報酬が増大した。
論文 参考訳(メタデータ) (2023-03-29T17:17:59Z) - Bridging Model-based Safety and Model-free Reinforcement Learning
through System Identification of Low Dimensional Linear Models [16.511440197186918]
モデルベース安全性とモデルフリー強化学習を組み合わせた新しい手法を提案する。
閉ループ系の力学を捉えるためには,低次元の力学モデルが十分であることを示す。
検出された線形モデルは、安全クリティカルな最適制御フレームワークによる保証を提供することができることを示す。
論文 参考訳(メタデータ) (2022-05-11T22:03:18Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Model-free Neural Lyapunov Control for Safe Robot Navigation [0.0]
モデルフリーのDeep Reinforcement Learning (DRL)アルゴリズムは未知のダイナミクスや高次元の問題を解くことができるが、安全性の保証はない。
DRLトレーニングループにおける制御ポリシとTNLFを併用したTwin Neural Lyapunov Function(TNLF)を学習し,学習したTNLFを用いてランタイムモニタを構築する。
本手法は,安全保証の強化を図りながらDRLからスケーラビリティの利点を継承する。
論文 参考訳(メタデータ) (2022-03-02T15:43:29Z) - Improving Robustness of Reinforcement Learning for Power System Control
with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。
具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。
本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:50:34Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Actor-Critic Reinforcement Learning for Control with Stability Guarantee [9.400585561458712]
強化学習(RL)と深層学習の統合は、様々なロボット制御タスクにおいて印象的なパフォーマンスを達成した。
しかし、データのみを用いることで、モデルフリーなRLでは安定性は保証されない。
本稿では,古典的なリアプノフ法を制御理論に適用することにより,閉ループ安定性を保証できるアクタクリティカルな制御用RLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-29T16:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。