論文の概要: Physical Deep Reinforcement Learning: Safety and Unknown Unknowns
- arxiv url: http://arxiv.org/abs/2305.16614v1
- Date: Fri, 26 May 2023 04:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:11:18.159167
- Title: Physical Deep Reinforcement Learning: Safety and Unknown Unknowns
- Title(参考訳): 深層強化学習 : 安全性と未知の未知
- Authors: Hongpeng Cao, Yanbing Mao, Lui Sha, Marco Caccamo
- Abstract要約: Phy-DRLは、物理モデルによる安全クリティカルな自律システムのための深層強化学習フレームワークである。
同時設計により、Phy-DRLは、1)未知の未知の障害を許容し、2)数学的に証明可能な安全性と安定性を保証し、3)ベルマン方程式と報酬に関する物理的な知識を厳密に遵守することができる。
- 参考スコア(独自算出の注目度): 2.4436713014295157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose the Phy-DRL: a physics-model-regulated deep
reinforcement learning framework for safety-critical autonomous systems. The
Phy-DRL is unique in three innovations: i) proactive unknown-unknowns training,
ii) conjunctive residual control (i.e., integration of data-driven control and
physics-model-based control) and safety- \& stability-sensitive reward, and
iii) physics-model-based neural network editing, including link editing and
activation editing. Thanks to the concurrent designs, the Phy-DRL is able to 1)
tolerate unknown-unknowns disturbances, 2) guarantee mathematically provable
safety and stability, and 3) strictly comply with physical knowledge pertaining
to Bellman equation and reward. The effectiveness of the Phy-DRL is finally
validated by an inverted pendulum and a quadruped robot. The experimental
results demonstrate that compared with purely data-driven DRL, Phy-DRL features
remarkably fewer learning parameters, accelerated training and enlarged reward,
while offering enhanced model robustness and safety assurance.
- Abstract(参考訳): 本稿では,安全クリティカル自律システムのための物理モデル制御型深層強化学習フレームワークphy-drlを提案する。
Phy-DRLは3つのイノベーションでユニークです。
一 積極的な未知の訓練
二 連結的残留制御(データ駆動制御と物理モデルに基づく制御の統合)及び安全性− \&安定性に敏感な報酬
三 リンク編集及びアクティベーション編集を含む物理モデルに基づくニューラルネットワークの編集
コンカレントデザインのおかげで、Phy-DRLは実現しました。
1)未知の乱れを許容する。
2)数学的に証明可能な安全性と安定性を保証し、
3)ベルマン方程式と報酬に関する物理知識を厳密に遵守する。
Phy-DRLの有効性は、最終的に倒立振子と四足歩行ロボットによって検証される。
実験結果から,データ駆動型drlと比較して,phy-drlは学習パラメータやトレーニングの高速化,報酬の拡大が著しく削減され,モデルの堅牢性と安全性の保証が向上した。
関連論文リスト
- ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - Safety-Oriented Pruning and Interpretation of Reinforcement Learning Policies [5.923818043882103]
Pruning Neural Network(NN)はそれらを合理化するが、安全な強化学習(RL)ポリシから重要なパラメータを取り除くリスクがある。
本稿では,NNプルーニングとモデルチェックを併用して,解釈可能なRL安全性を確保する,VERINTERと呼ばれる解釈可能なRL手法を提案する。
論文 参考訳(メタデータ) (2024-09-16T12:13:41Z) - RACER: Rational Artificial Intelligence Car-following-model Enhanced by
Reality [51.244807332133696]
本稿では,アダプティブ・クルーズ・コントロール(ACC)運転行動を予測する,最先端の深層学習車追従モデルであるRACERを紹介する。
従来のモデルとは異なり、RACERは実走行の重要な要素であるRDC(Rational Driving Constraints)を効果的に統合している。
RACERはアクセラレーション、ベロシティ、スペーシングといった主要なメトリクスを網羅し、ゼロ違反を登録する。
論文 参考訳(メタデータ) (2023-12-12T06:21:30Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - Physical Deep Reinforcement Learning Towards Safety Guarantee [2.4436713014295157]
Phy-DRLは物理的な強化学習フレームワークである。
物理報酬と残留制御は、(数学的に)証明可能な安全性と安定性の保証をPhy-DRLに付与する。
Phy-DRLは安全性と安定性が保証され,堅牢性が向上し,トレーニングが著しく向上し,報酬が増大した。
論文 参考訳(メタデータ) (2023-03-29T17:17:59Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - Bridging Model-based Safety and Model-free Reinforcement Learning
through System Identification of Low Dimensional Linear Models [16.511440197186918]
モデルベース安全性とモデルフリー強化学習を組み合わせた新しい手法を提案する。
閉ループ系の力学を捉えるためには,低次元の力学モデルが十分であることを示す。
検出された線形モデルは、安全クリティカルな最適制御フレームワークによる保証を提供することができることを示す。
論文 参考訳(メタデータ) (2022-05-11T22:03:18Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Model-free Neural Lyapunov Control for Safe Robot Navigation [0.0]
モデルフリーのDeep Reinforcement Learning (DRL)アルゴリズムは未知のダイナミクスや高次元の問題を解くことができるが、安全性の保証はない。
DRLトレーニングループにおける制御ポリシとTNLFを併用したTwin Neural Lyapunov Function(TNLF)を学習し,学習したTNLFを用いてランタイムモニタを構築する。
本手法は,安全保証の強化を図りながらDRLからスケーラビリティの利点を継承する。
論文 参考訳(メタデータ) (2022-03-02T15:43:29Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。