論文の概要: Robust Anytime Learning of Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2205.15827v1
- Date: Tue, 31 May 2022 14:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 19:07:54.947580
- Title: Robust Anytime Learning of Markov Decision Processes
- Title(参考訳): マルコフ決定過程のロバストな時間学習
- Authors: Marnix Suilen, Thiago D. Sim\~ao, Nils Jansen, David Parker
- Abstract要約: データ駆動型アプリケーションでは、限られたデータから正確な確率を導き出すと統計的エラーが発生する。
不確実なMDP(uMDP)は正確な確率を必要としないが、遷移においていわゆる不確実性集合を用いる。
提案手法の有効性を示し,UCRL2強化学習アルゴリズムで学習したUDDP上でのロバストなポリシーと比較する。
- 参考スコア(独自算出の注目度): 8.79918298301956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Markov decision processes (MDPs) are formal models commonly used in
sequential decision-making. MDPs capture the stochasticity that may arise, for
instance, from imprecise actuators via probabilities in the transition
function. However, in data-driven applications, deriving precise probabilities
from (limited) data introduces statistical errors that may lead to unexpected
or undesirable outcomes. Uncertain MDPs (uMDPs) do not require precise
probabilities but instead use so-called uncertainty sets in the transitions,
accounting for such limited data. Tools from the formal verification community
efficiently compute robust policies that provably adhere to formal
specifications, like safety constraints, under the worst-case instance in the
uncertainty set. We continuously learn the transition probabilities of an MDP
in a robust anytime-learning approach that combines a dedicated Bayesian
inference scheme with the computation of robust policies. In particular, our
method (1) approximates probabilities as intervals, (2) adapts to new data that
may be inconsistent with an intermediate model, and (3) may be stopped at any
time to compute a robust policy on the uMDP that faithfully captures the data
so far. We show the effectiveness of our approach and compare it to robust
policies computed on uMDPs learned by the UCRL2 reinforcement learning
algorithm in an experimental evaluation on several benchmarks.
- Abstract(参考訳): マルコフ決定プロセス(MDPs)は、シーケンシャルな意思決定で一般的に使用される形式モデルである。
MDPは、例えば遷移関数の確率を通じて不正確なアクチュエータから生じる確率をキャプチャする。
しかし、データ駆動のアプリケーションでは、(限られた)データから正確な確率を導き出すと、予期しない結果や望ましくない結果につながる統計的エラーが生じる。
不確実なMDP (uMDPs) は正確な確率を必要としないが、そのような制限されたデータを考慮して、遷移においていわゆる不確実性セットを使用する。
形式検証コミュニティのツールは、不確実性セットの最悪の例の下で、安全制約のような形式的仕様に確実に準拠する堅牢なポリシーを効率的に計算します。
我々は、ベイズ推論スキームとロバストポリシーの計算を組み合わせた頑健な任意の時間学習アプローチで、MDPの遷移確率を継続的に学習する。
特に,(1)間隔として確率を近似し,(2)中間モデルと矛盾する可能性のある新しいデータに適応し,(3)データを忠実にキャプチャするumdp上の強固なポリシーを計算するためにいつでも停止することができる。
本手法の有効性をucrl2強化学習アルゴリズムで学習したumdpsに基づく強固なポリシーと比較し,いくつかのベンチマークにおける実験評価を行った。
関連論文リスト
- Efficient Conformal Prediction under Data Heterogeneity [81.48629818956351]
コンフォーマル予測(CP)は不確実性定量化のための頑健な枠組みである。
非交換性に対処するための既存のアプローチは、最も単純な例を超えて計算不可能なメソッドにつながる。
この研究は、比較的一般的な非交換可能なデータ分布に対して証明可能な信頼セットを生成する、CPに新しい効率的なアプローチを導入する。
論文 参考訳(メタデータ) (2023-12-25T20:02:51Z) - Robust Active Measuring under Model Uncertainty [11.087930299233278]
部分的可観測性と不確実性は、シーケンシャルな意思決定において一般的な問題である。
本稿では,RAM-MDPを効率よく解き,モデルの不確実性によりエージェントがより少ない測定を行えることを示す。
論文 参考訳(メタデータ) (2023-12-18T14:21:35Z) - Detecting Concept Drift for the reliability prediction of Software
Defects using Instance Interpretation [4.039245878626346]
コンセプトドリフト(CD)は、ソフトウェア開発プロセスの変化、ソフトウェアの複雑さ、ユーザーの振る舞いの変化によって起こりうる。
本研究の目的は,CD点検出を用いた信頼度の高いJIT-SDPモデルの構築である。
論文 参考訳(メタデータ) (2023-05-06T07:50:12Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Robust Control for Dynamical Systems With Non-Gaussian Noise via Formal
Abstractions [59.605246463200736]
雑音分布の明示的な表現に依存しない新しい制御器合成法を提案する。
まず、連続制御系を有限状態モデルに抽象化し、離散状態間の確率的遷移によってノイズを捕捉する。
我々は最先端の検証技術を用いてマルコフ決定プロセスの間隔を保証し、これらの保証が元の制御システムに受け継がれるコントローラを演算する。
論文 参考訳(メタデータ) (2023-01-04T10:40:30Z) - Probabilities Are Not Enough: Formal Controller Synthesis for Stochastic
Dynamical Models with Epistemic Uncertainty [68.00748155945047]
複雑な力学系のモデルにおける不確実性を捉えることは、安全なコントローラの設計に不可欠である。
いくつかのアプローチでは、安全と到達可能性に関する時間的仕様を満たすポリシーを形式的な抽象化を用いて合成する。
我々の貢献は、ノイズ、不確実なパラメータ、外乱を含む連続状態モデルに対する新しい抽象的制御法である。
論文 参考訳(メタデータ) (2022-10-12T07:57:03Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian
Noise [59.47042225257565]
雑音分布の明示的な表現に依存しない新しい計画法を提案する。
まず、連続系を離散状態モデルに抽象化し、状態間の確率的遷移によってノイズを捕捉する。
いわゆる区間マルコフ決定過程(iMDP)の遷移確率区間におけるこれらの境界を捉える。
論文 参考訳(メタデータ) (2021-10-25T06:18:55Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。