論文の概要: Generalizable Physics-Informed Learning for Stochastic Safety-Critical Systems
- arxiv url: http://arxiv.org/abs/2407.08868v2
- Date: Mon, 15 Jul 2024 16:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 13:31:11.111562
- Title: Generalizable Physics-Informed Learning for Stochastic Safety-Critical Systems
- Title(参考訳): 確率論的安全批判システムのための一般化可能な物理インフォームドラーニング
- Authors: Zhuoyuan Wang, Albert Chern, Yorie Nakahira,
- Abstract要約: 十分なリスク事象を伴わない短期サンプルを用いて,長期的リスク確率とその勾配を評価するための効率的な手法を提案する。
提案手法は, サンプル効率を向上し, 未確認領域を一般化し, システムパラメータの変化に適応できることをシミュレーションで示す。
- 参考スコア(独自算出の注目度): 8.277567852741244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate estimate of long-term risk is critical for safe decision-making, but sampling from rare risk events and long-term trajectories can be prohibitively costly. Risk gradient can be used in many first-order techniques for learning and control methods, but gradient estimate is difficult to obtain using Monte Carlo (MC) methods because the infinitesimal divisor may significantly amplify sampling noise. Motivated by this gap, we propose an efficient method to evaluate long-term risk probabilities and their gradients using short-term samples without sufficient risk events. We first derive that four types of long-term risk probability are solutions of certain partial differential equations (PDEs). Then, we propose a physics-informed learning technique that integrates data and physics information (aforementioned PDEs). The physics information helps propagate information beyond available data and obtain provable generalization beyond available data, which in turn enables long-term risk to be estimated using short-term samples of safe events. Finally, we demonstrate in simulation that the proposed technique has improved sample efficiency, generalizes well to unseen regions, and adapts to changing system parameters.
- Abstract(参考訳): 安全な意思決定には、長期的リスクの正確な見積もりが不可欠であるが、稀なリスクイベントや長期的トラジェクトリからのサンプリングは、違法にコストがかかる可能性がある。
リスク勾配は、学習と制御のための多くの一階法で利用できるが、無限小因子がサンプリングノイズを著しく増幅するので、モンテカルロ法(MC)を用いて勾配推定を得るのは難しい。
このギャップを生かして,十分なリスクイベントを伴わない短期サンプルを用いて,長期的リスク確率とその勾配を評価するための効率的な手法を提案する。
まず、4種類の長期リスク確率が、ある偏微分方程式(PDE)の解であることが導かれる。
そこで本研究では,データと物理情報(前述のPDE)を統合した物理インフォームド学習手法を提案する。
物理情報は、利用可能なデータを超えて情報を伝達し、利用可能なデータを超えて証明可能な一般化を得るのに役立つ。
最後に,提案手法がサンプル効率を向上し,未確認領域を一般化し,システムパラメータの変化に適応できることをシミュレーションで実証した。
関連論文リスト
- Myopically Verifiable Probabilistic Certificates for Safe Control and Learning [7.6918726072590555]
環境において、無限小時間間隔におけるリスク事象の確率を制限する不分散に基づく手法は、重大な長期的リスクを示す可能性がある。
一方、長期的未来を考慮したリーチビリティに基づくアプローチでは、リアルタイムな意思決定が禁止される可能性がある。
論文 参考訳(メタデータ) (2024-04-23T20:29:01Z) - Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - Physics-informed RL for Maximal Safety Probability Estimation [0.8287206589886881]
本研究では,リスクのある状態や長期軌道からのサンプルを十分にカバーすることなく,最大安全行動の長期安全確率を推定する方法を検討する。
提案手法は,短期サンプルを用いて長期リスクを推定し,未サンプリング状態のリスクを推定する。
論文 参考訳(メタデータ) (2024-03-25T03:13:56Z) - A Generalizable Physics-informed Learning Framework for Risk Probability
Estimation [1.8855270809505869]
我々は,長期的リスクとその勾配の確率を評価するための効率的な手法を開発した。
提案手法は, 長期リスク確率が偏微分方程式を満たすという事実を利用する。
数値計算の結果,提案手法はサンプル効率が向上し,未確認領域への一般化が可能であり,パラメータを変化させたシステムに適応できることがわかった。
論文 参考訳(メタデータ) (2023-05-10T19:44:42Z) - Information-Theoretic Safe Exploration with Gaussian Processes [89.31922008981735]
未知の(安全でない)制約に反するパラメータを評価できないような、逐次的な意思決定タスクについて検討する。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2022-12-09T15:23:58Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。
我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。
実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-05-25T14:35:46Z) - Towards Safe Policy Improvement for Non-Stationary MDPs [48.9966576179679]
多くの実世界の利害問題は非定常性を示し、利害関係が高ければ、偽の定常性仮定に関連するコストは受け入れがたい。
我々は、スムーズに変化する非定常的な意思決定問題に対して、高い信頼性で安全性を確保するための第一歩を踏み出します。
提案手法は,時系列解析を用いたモデルフリー強化学習の合成により,セルドンアルゴリズムと呼ばれる安全なアルゴリズムを拡張した。
論文 参考訳(メタデータ) (2020-10-23T20:13:51Z) - DeepHazard: neural network for time-varying risks [0.6091702876917281]
生存予測のための新しいフレキシブルな手法,DeepHazardを提案する。
我々のアプローチは、時間内に添加物としてのみ制限される、広範囲の継続的なハザード形態に適合している。
数値的な例では,我々の手法は,C-インデックス計量を用いて評価された予測能力において,既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-07-26T21:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。