Fugu-MT 論文翻訳(概要): Physical Deep Reinforcement Learning: Safety and Unknown Unknowns

論文の概要: Physical Deep Reinforcement Learning: Safety and Unknown Unknowns

arxiv url: http://arxiv.org/abs/2305.16614v1
Date: Fri, 26 May 2023 04:20:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 17:11:18.159167
Title: Physical Deep Reinforcement Learning: Safety and Unknown Unknowns
Title（参考訳）: 深層強化学習 : 安全性と未知の未知
Authors: Hongpeng Cao, Yanbing Mao, Lui Sha, Marco Caccamo
Abstract要約: Phy-DRLは、物理モデルによる安全クリティカルな自律システムのための深層強化学習フレームワークである。同時設計により、Phy-DRLは、1)未知の未知の障害を許容し、2)数学的に証明可能な安全性と安定性を保証し、3)ベルマン方程式と報酬に関する物理的な知識を厳密に遵守することができる。
参考スコア（独自算出の注目度）: 2.4436713014295157
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose the Phy-DRL: a physics-model-regulated deep reinforcement learning framework for safety-critical autonomous systems. The Phy-DRL is unique in three innovations: i) proactive unknown-unknowns training, ii) conjunctive residual control (i.e., integration of data-driven control and physics-model-based control) and safety- \& stability-sensitive reward, and iii) physics-model-based neural network editing, including link editing and activation editing. Thanks to the concurrent designs, the Phy-DRL is able to 1) tolerate unknown-unknowns disturbances, 2) guarantee mathematically provable safety and stability, and 3) strictly comply with physical knowledge pertaining to Bellman equation and reward. The effectiveness of the Phy-DRL is finally validated by an inverted pendulum and a quadruped robot. The experimental results demonstrate that compared with purely data-driven DRL, Phy-DRL features remarkably fewer learning parameters, accelerated training and enlarged reward, while offering enhanced model robustness and safety assurance.
Abstract（参考訳）: 本稿では,安全クリティカル自律システムのための物理モデル制御型深層強化学習フレームワークphy-drlを提案する。 Phy-DRLは3つのイノベーションでユニークです。一積極的な未知の訓練二連結的残留制御(データ駆動制御と物理モデルに基づく制御の統合)及び安全性− \&安定性に敏感な報酬三リンク編集及びアクティベーション編集を含む物理モデルに基づくニューラルネットワークの編集コンカレントデザインのおかげで、Phy-DRLは実現しました。 1)未知の乱れを許容する。 2)数学的に証明可能な安全性と安定性を保証し、 3)ベルマン方程式と報酬に関する物理知識を厳密に遵守する。 Phy-DRLの有効性は、最終的に倒立振子と四足歩行ロボットによって検証される。実験結果から,データ駆動型drlと比較して,phy-drlは学習パラメータやトレーニングの高速化,報酬の拡大が著しく削減され,モデルの堅牢性と安全性の保証が向上した。

関連論文リスト

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文参考訳（メタデータ） (2025-04-23T12:58:15Z)
Evaluating Reinforcement Learning Safety and Trustworthiness in Cyber-Physical Systems [38.48645678884814]
本稿では,SAFE-RL (Safety and Accountability Framework for Evaluation Reinforcement Learning) を提案する。我々は,小型無人航空システム(sUAS)における3つのRLアプリケーションにおいて,フレームワークの構築と利用を実証するために,設計科学的アプローチを採用する。
論文参考訳（メタデータ） (2025-03-12T13:33:07Z)
ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。 ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文参考訳（メタデータ） (2024-10-28T05:29:38Z)
Safety-Oriented Pruning and Interpretation of Reinforcement Learning Policies [5.923818043882103]
Pruning Neural Network(NN)はそれらを合理化するが、安全な強化学習(RL)ポリシから重要なパラメータを取り除くリスクがある。本稿では,NNプルーニングとモデルチェックを併用して,解釈可能なRL安全性を確保する,VERINTERと呼ばれる解釈可能なRL手法を提案する。
論文参考訳（メタデータ） (2024-09-16T12:13:41Z)
DPO: A Differential and Pointwise Control Approach to Reinforcement Learning [3.2857981869020327]
連続状態行動空間における強化学習(RL)は、科学計算において依然として困難である。本稿では,連続時間制御の観点からRLを再構成する新しいフレームワークである差分強化学習(Differential RL)を紹介する。我々は,局所運動演算子を洗練させる段階的アルゴリズムである微分ポリシー最適化(DPO)を開発した。
論文参考訳（メタデータ） (2024-04-24T03:11:12Z)
RACER: Rational Artificial Intelligence Car-following-model Enhanced by Reality [51.244807332133696]
本稿では,アダプティブ・クルーズ・コントロール(ACC)運転行動を予測する,最先端の深層学習車追従モデルであるRACERを紹介する。従来のモデルとは異なり、RACERは実走行の重要な要素であるRDC(Rational Driving Constraints)を効果的に統合している。 RACERはアクセラレーション、ベロシティ、スペーシングといった主要なメトリクスを網羅し、ゼロ違反を登録する。
論文参考訳（メタデータ） (2023-12-12T06:21:30Z)
Guided Online Distillation: Promoting Safe Reinforcement Learning by Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。 GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文参考訳（メタデータ） (2023-09-18T00:22:59Z)
Physical Deep Reinforcement Learning Towards Safety Guarantee [2.4436713014295157]
Phy-DRLは物理的な強化学習フレームワークである。物理報酬と残留制御は、(数学的に)証明可能な安全性と安定性の保証をPhy-DRLに付与する。 Phy-DRLは安全性と安定性が保証され,堅牢性が向上し,トレーニングが著しく向上し,報酬が増大した。
論文参考訳（メタデータ） (2023-03-29T17:17:59Z)
Efficient Learning of Voltage Control Strategies via Model-based Deep Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-06T02:50:53Z)
Bridging Model-based Safety and Model-free Reinforcement Learning through System Identification of Low Dimensional Linear Models [16.511440197186918]
モデルベース安全性とモデルフリー強化学習を組み合わせた新しい手法を提案する。閉ループ系の力学を捉えるためには,低次元の力学モデルが十分であることを示す。検出された線形モデルは、安全クリティカルな最適制御フレームワークによる保証を提供することができることを示す。
論文参考訳（メタデータ） (2022-05-11T22:03:18Z)
Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。強化学習と潜在変数生成モデルの組み合わせを利用する。最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文参考訳（メタデータ） (2022-04-18T22:02:32Z)
Model-free Neural Lyapunov Control for Safe Robot Navigation [0.0]
モデルフリーのDeep Reinforcement Learning (DRL)アルゴリズムは未知のダイナミクスや高次元の問題を解くことができるが、安全性の保証はない。 DRLトレーニングループにおける制御ポリシとTNLFを併用したTwin Neural Lyapunov Function(TNLF)を学習し,学習したTNLFを用いてランタイムモニタを構築する。本手法は,安全保証の強化を図りながらDRLからスケーラビリティの利点を継承する。
論文参考訳（メタデータ） (2022-03-02T15:43:29Z)
MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文参考訳（メタデータ） (2020-05-12T17:52:43Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。