論文の概要: Physics-informed RL for Maximal Safety Probability Estimation
- arxiv url: http://arxiv.org/abs/2403.16391v1
- Date: Mon, 25 Mar 2024 03:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 16:07:18.789775
- Title: Physics-informed RL for Maximal Safety Probability Estimation
- Title(参考訳): 物理インフォームドRLによる最大安全確率推定
- Authors: Hikaru Hoshino, Yorie Nakahira,
- Abstract要約: 本研究では,リスクのある状態や長期軌道からのサンプルを十分にカバーすることなく,最大安全行動の長期安全確率を推定する方法を検討する。
提案手法は,短期サンプルを用いて長期リスクを推定し,未サンプリング状態のリスクを推定する。
- 参考スコア(独自算出の注目度): 0.8287206589886881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate risk quantification and reachability analysis are crucial for safe control and learning, but sampling from rare events, risky states, or long-term trajectories can be prohibitively costly. Motivated by this, we study how to estimate the long-term safety probability of maximally safe actions without sufficient coverage of samples from risky states and long-term trajectories. The use of maximal safety probability in control and learning is expected to avoid conservative behaviors due to over-approximation of risk. Here, we first show that long-term safety probability, which is multiplicative in time, can be converted into additive costs and be solved using standard reinforcement learning methods. We then derive this probability as solutions of partial differential equations (PDEs) and propose Physics-Informed Reinforcement Learning (PIRL) algorithm. The proposed method can learn using sparse rewards because the physics constraints help propagate risk information through neighbors. This suggests that, for the purpose of extracting more information for efficient learning, physics constraints can serve as an alternative to reward shaping. The proposed method can also estimate long-term risk using short-term samples and deduce the risk of unsampled states. This feature is in stark contrast with the unconstrained deep RL that demands sufficient data coverage. These merits of the proposed method are demonstrated in numerical simulation.
- Abstract(参考訳): 正確なリスク定量化と到達可能性分析は、安全な制御と学習に不可欠であるが、稀な事象、リスクのある状態、長期的軌道からのサンプリングは、違法にコストがかかる可能性がある。
本研究の目的は,リスクのある状態や長期軌道からのサンプルを十分にカバーすることなく,最大安全行動の長期安全確率を推定する方法である。
制御と学習における最大安全性確率の使用は、リスクの過度な近似による保守的な行動を避けることが期待されている。
本稿では,時間的に乗算可能な長期安全確率を付加コストに変換し,標準強化学習法を用いて解決できることを最初に示す。
次に、この確率を偏微分方程式(PDE)の解として導出し、PIRLアルゴリズムを提案する。
提案手法は, 物理制約が近隣のリスク情報を伝達するのに有効であるため, スパース報酬を用いて学習することができる。
これは、効率的な学習のためにより多くの情報を抽出するために、物理学的な制約が報酬形成の代替となることを示唆している。
提案手法は,短期サンプルを用いて長期リスクを推定し,未サンプリング状態のリスクを推定する。
この機能は、十分なデータカバレッジを必要とする、制約のないディープRLとは対照的である。
提案手法の利点を数値シミュレーションで示す。
関連論文リスト
- Generalizable Physics-Informed Learning for Stochastic Safety-Critical Systems [8.277567852741244]
十分なリスク事象を伴わない短期サンプルを用いて,長期的リスク確率とその勾配を評価するための効率的な手法を提案する。
提案手法は, サンプル効率を向上し, 未確認領域を一般化し, システムパラメータの変化に適応できることをシミュレーションで示す。
論文 参考訳(メタデータ) (2024-07-11T21:10:03Z) - Myopically Verifiable Probabilistic Certificates for Safe Control and Learning [7.6918726072590555]
環境において、無限小時間間隔におけるリスク事象の確率を制限する不分散に基づく手法は、重大な長期的リスクを示す可能性がある。
一方、長期的未来を考慮したリーチビリティに基づくアプローチでは、リアルタイムな意思決定が禁止される可能性がある。
論文 参考訳(メタデータ) (2024-04-23T20:29:01Z) - Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - A Generalizable Physics-informed Learning Framework for Risk Probability Estimation [1.5960546024967326]
我々は,長期的リスクとその勾配の確率を評価するための効率的な手法を開発した。
提案手法は, 長期リスク確率が偏微分方程式を満たすという事実を利用する。
数値計算の結果,提案手法はサンプル効率が向上し,未確認領域への一般化が可能であり,パラメータを変化させたシステムに適応できることがわかった。
論文 参考訳(メタデータ) (2023-05-10T19:44:42Z) - Information-Theoretic Safe Exploration with Gaussian Processes [89.31922008981735]
未知の(安全でない)制約に反するパラメータを評価できないような、逐次的な意思決定タスクについて検討する。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2022-12-09T15:23:58Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Learning to Act Safely with Limited Exposure and Almost Sure Certainty [1.0323063834827415]
本稿では,未知の環境における安全な行動を取るための学習を,探索試験を必要とせずに実現できるという考えを提唱する。
本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-05-18T18:05:12Z) - Towards Safe Policy Improvement for Non-Stationary MDPs [48.9966576179679]
多くの実世界の利害問題は非定常性を示し、利害関係が高ければ、偽の定常性仮定に関連するコストは受け入れがたい。
我々は、スムーズに変化する非定常的な意思決定問題に対して、高い信頼性で安全性を確保するための第一歩を踏み出します。
提案手法は,時系列解析を用いたモデルフリー強化学習の合成により,セルドンアルゴリズムと呼ばれる安全なアルゴリズムを拡張した。
論文 参考訳(メタデータ) (2020-10-23T20:13:51Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。