論文の概要: A Deep Reinforcement Learning Approach to Rare Event Estimation
- arxiv url: http://arxiv.org/abs/2211.12470v1
- Date: Tue, 22 Nov 2022 18:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:59:26.823732
- Title: A Deep Reinforcement Learning Approach to Rare Event Estimation
- Title(参考訳): 希少事象推定のための深層強化学習手法
- Authors: Anthony Corso, Kyu-Young Kim, Shubh Gupta, Grace Gao, Mykel J.
Kochenderfer
- Abstract要約: 自律システムの設計における重要なステップは、失敗が起こる確率を評価することである。
安全クリティカルな領域では、モンテカルロサンプリングによる政策の評価が非効率であるように、失敗確率は非常に小さい。
逐次意思決定システムにおいて、稀な事象の確率を効率的に推定できる2つの適応的重要度サンプリングアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 30.670114229970526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important step in the design of autonomous systems is to evaluate the
probability that a failure will occur. In safety-critical domains, the failure
probability is extremely small so that the evaluation of a policy through Monte
Carlo sampling is inefficient. Adaptive importance sampling approaches have
been developed for rare event estimation but do not scale well to sequential
systems with long horizons. In this work, we develop two adaptive importance
sampling algorithms that can efficiently estimate the probability of rare
events for sequential decision making systems. The basis for these algorithms
is the minimization of the Kullback-Leibler divergence between a
state-dependent proposal distribution and a target distribution over
trajectories, but the resulting algorithms resemble policy gradient and
value-based reinforcement learning. We apply multiple importance sampling to
reduce the variance of our estimate and to address the issue of multi-modality
in the optimal proposal distribution. We demonstrate our approach on a control
task with both continuous and discrete actions spaces and show accuracy
improvements over several baselines.
- Abstract(参考訳): 自律システムの設計における重要なステップは、失敗が起こる確率を評価することである。
安全クリティカルな領域では、モンテカルロサンプリングによるポリシーの評価が非効率になるように、故障確率は非常に小さい。
稀な事象推定のための適応的重要度サンプリング手法が開発されているが、長い地平線を持つ逐次システムには適していない。
本研究では,逐次意思決定システムにおいて,希少事象の確率を効率的に推定できる2つの適応的重要度サンプリングアルゴリズムを開発した。
これらのアルゴリズムの基礎は、状態依存的な提案分布と軌道上の目標分布とのクルバック・リーブラー分岐の最小化であるが、結果として得られるアルゴリズムは、ポリシー勾配と値に基づく強化学習に類似している。
我々は,推定のばらつきを低減し,最適提案分布におけるマルチモダリティの問題に対処するために,多重重要サンプリングを適用する。
我々は,連続的および離散的動作空間を持つ制御タスクに対する我々のアプローチを実証し,複数のベースラインに対する精度向上を示す。
関連論文リスト
- Embedding generalization within the learning dynamics: An approach based-on sample path large deviation theory [0.0]
本研究では,持続的視点から手法を利用する経験的リスク摂動に基づく学習問題を考察する。
大規模偏差のFreidlin-Wentzell理論に基づく小雑音限界の推定を行う。
また、最適点推定に繋がる変分問題を解く計算アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-04T23:31:35Z) - Reliability analysis of discrete-state performance functions via
adaptive sequential sampling with detection of failure surfaces [0.0]
本稿では,レアイベント確率推定のための新しい効率的でロバストな手法を提案する。
この手法は、複数の障害タイプの確率を推定することができる。
この情報に対応して、推定確率の精度を高めることができる。
論文 参考訳(メタデータ) (2022-08-04T05:59:25Z) - GANISP: a GAN-assisted Importance SPlitting Probability Estimator [0.0]
提案したGANISP(GANISP)は,対象とするシステムの分散化を改善する。
メソッドの実装は、コンパニオンリポジトリで利用可能である。
論文 参考訳(メタデータ) (2021-12-28T17:13:37Z) - Accelerated Policy Evaluation: Learning Adversarial Environments with
Adaptive Importance Sampling [19.81658135871748]
安全クリティカルシステムにおけるバイアスまたは不正確な政策評価は、予期せぬ破滅的な失敗を引き起こす可能性がある。
本稿では,稀な事象を同時に発見し,稀な事象の確率を推定するAPE手法を提案する。
APEは、関数近似器を組み込むことにより、大きな離散空間や連続空間にスケーラブルである。
論文 参考訳(メタデータ) (2021-06-19T20:03:26Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。
我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。
実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-05-25T14:35:46Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Log-Likelihood Ratio Minimizing Flows: Towards Robust and Quantifiable
Neural Distribution Alignment [52.02794488304448]
そこで本研究では,対数様比統計量と正規化フローに基づく新しい分布アライメント手法を提案する。
入力領域の局所構造を保存する領域アライメントにおいて,結果の最小化を実験的に検証する。
論文 参考訳(メタデータ) (2020-03-26T22:10:04Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。