論文の概要: Physics-Regulated Deep Reinforcement Learning: Invariant Embeddings
- arxiv url: http://arxiv.org/abs/2305.16614v2
- Date: Mon, 8 Jul 2024 15:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 03:48:51.247739
- Title: Physics-Regulated Deep Reinforcement Learning: Invariant Embeddings
- Title(参考訳): 物理制御された深層強化学習:不変な埋め込み
- Authors: Hongpeng Cao, Yanbing Mao, Lui Sha, Marco Caccamo,
- Abstract要約: Phy-DRLは物理制御された安全クリティカルな自律システムのための深層強化学習フレームワークである。
The Phy-DRL exhibits 1) a mathematicallyprovable safety guarantee and 2) strict compliance of critic and actor network with physics knowledge with the action-value function and action policy。
- 参考スコア(独自算出の注目度): 2.2338458480599637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes the Phy-DRL: a physics-regulated deep reinforcement learning (DRL) framework for safety-critical autonomous systems. The Phy-DRL has three distinguished invariant-embedding designs: i) residual action policy (i.e., integrating data-driven-DRL action policy and physics-model-based action policy), ii) automatically constructed safety-embedded reward, and iii) physics-model-guided neural network (NN) editing, including link editing and activation editing. Theoretically, the Phy-DRL exhibits 1) a mathematically provable safety guarantee and 2) strict compliance of critic and actor networks with physics knowledge about the action-value function and action policy. Finally, we evaluate the Phy-DRL on a cart-pole system and a quadruped robot. The experiments validate our theoretical results and demonstrate that Phy-DRL features guaranteed safety compared to purely data-driven DRL and solely model-based design while offering remarkably fewer learning parameters and fast training towards safety guarantee.
- Abstract(参考訳): 本稿では,安全クリティカル自律システムのための物理制御深部強化学習(DRL)フレームワークであるPhy-DRLを提案する。
Phy-DRLには3つの特徴ある不変埋め込み設計がある。
一 残留行動方針(即ち、データ駆動型DRL行動方針及び物理モデルに基づく行動方針の統合)
二 自動的に安全付納付報酬を造成し、
三 リンク編集及びアクティベーション編集を含む物理モデル誘導ニューラルネットワーク(NN)の編集
理論的には、Phy-DRLの展示
1 数学的に証明可能な安全保証及び安全保証
2) 行動価値関数と行動ポリシーに関する物理知識を持つ批評家・俳優ネットワークの厳格なコンプライアンス。
最後に、カートポールシステムと四足歩行ロボットを用いたPhy-DRLの評価を行った。
実験の結果,Phy-DRLは純粋にデータ駆動型DRLに比べて安全性が保証され,モデルベース設計のみであるとともに,学習パラメータが著しく少なく,安全性の確保に向けた迅速な訓練が可能であることが示された。
関連論文リスト
- ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - Safety-Oriented Pruning and Interpretation of Reinforcement Learning Policies [5.923818043882103]
Pruning Neural Network(NN)はそれらを合理化するが、安全な強化学習(RL)ポリシから重要なパラメータを取り除くリスクがある。
本稿では,NNプルーニングとモデルチェックを併用して,解釈可能なRL安全性を確保する,VERINTERと呼ばれる解釈可能なRL手法を提案する。
論文 参考訳(メタデータ) (2024-09-16T12:13:41Z) - RACER: Rational Artificial Intelligence Car-following-model Enhanced by
Reality [51.244807332133696]
本稿では,アダプティブ・クルーズ・コントロール(ACC)運転行動を予測する,最先端の深層学習車追従モデルであるRACERを紹介する。
従来のモデルとは異なり、RACERは実走行の重要な要素であるRDC(Rational Driving Constraints)を効果的に統合している。
RACERはアクセラレーション、ベロシティ、スペーシングといった主要なメトリクスを網羅し、ゼロ違反を登録する。
論文 参考訳(メタデータ) (2023-12-12T06:21:30Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - Physical Deep Reinforcement Learning Towards Safety Guarantee [2.4436713014295157]
Phy-DRLは物理的な強化学習フレームワークである。
物理報酬と残留制御は、(数学的に)証明可能な安全性と安定性の保証をPhy-DRLに付与する。
Phy-DRLは安全性と安定性が保証され,堅牢性が向上し,トレーニングが著しく向上し,報酬が増大した。
論文 参考訳(メタデータ) (2023-03-29T17:17:59Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - Bridging Model-based Safety and Model-free Reinforcement Learning
through System Identification of Low Dimensional Linear Models [16.511440197186918]
モデルベース安全性とモデルフリー強化学習を組み合わせた新しい手法を提案する。
閉ループ系の力学を捉えるためには,低次元の力学モデルが十分であることを示す。
検出された線形モデルは、安全クリティカルな最適制御フレームワークによる保証を提供することができることを示す。
論文 参考訳(メタデータ) (2022-05-11T22:03:18Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Model-free Neural Lyapunov Control for Safe Robot Navigation [0.0]
モデルフリーのDeep Reinforcement Learning (DRL)アルゴリズムは未知のダイナミクスや高次元の問題を解くことができるが、安全性の保証はない。
DRLトレーニングループにおける制御ポリシとTNLFを併用したTwin Neural Lyapunov Function(TNLF)を学習し,学習したTNLFを用いてランタイムモニタを構築する。
本手法は,安全保証の強化を図りながらDRLからスケーラビリティの利点を継承する。
論文 参考訳(メタデータ) (2022-03-02T15:43:29Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。