Fugu-MT 論文翻訳(概要): Robust Anytime Learning of Markov Decision Processes

論文の概要: Robust Anytime Learning of Markov Decision Processes

arxiv url: http://arxiv.org/abs/2205.15827v1
Date: Tue, 31 May 2022 14:29:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-01 19:07:54.947580
Title: Robust Anytime Learning of Markov Decision Processes
Title（参考訳）: マルコフ決定過程のロバストな時間学習
Authors: Marnix Suilen, Thiago D. Sim\~ao, Nils Jansen, David Parker
Abstract要約: データ駆動型アプリケーションでは、限られたデータから正確な確率を導き出すと統計的エラーが発生する。不確実なMDP(uMDP)は正確な確率を必要としないが、遷移においていわゆる不確実性集合を用いる。提案手法の有効性を示し,UCRL2強化学習アルゴリズムで学習したUDDP上でのロバストなポリシーと比較する。
参考スコア（独自算出の注目度）: 8.79918298301956
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Markov decision processes (MDPs) are formal models commonly used in sequential decision-making. MDPs capture the stochasticity that may arise, for instance, from imprecise actuators via probabilities in the transition function. However, in data-driven applications, deriving precise probabilities from (limited) data introduces statistical errors that may lead to unexpected or undesirable outcomes. Uncertain MDPs (uMDPs) do not require precise probabilities but instead use so-called uncertainty sets in the transitions, accounting for such limited data. Tools from the formal verification community efficiently compute robust policies that provably adhere to formal specifications, like safety constraints, under the worst-case instance in the uncertainty set. We continuously learn the transition probabilities of an MDP in a robust anytime-learning approach that combines a dedicated Bayesian inference scheme with the computation of robust policies. In particular, our method (1) approximates probabilities as intervals, (2) adapts to new data that may be inconsistent with an intermediate model, and (3) may be stopped at any time to compute a robust policy on the uMDP that faithfully captures the data so far. We show the effectiveness of our approach and compare it to robust policies computed on uMDPs learned by the UCRL2 reinforcement learning algorithm in an experimental evaluation on several benchmarks.
Abstract（参考訳）: マルコフ決定プロセス(MDPs)は、シーケンシャルな意思決定で一般的に使用される形式モデルである。 MDPは、例えば遷移関数の確率を通じて不正確なアクチュエータから生じる確率をキャプチャする。しかし、データ駆動のアプリケーションでは、(限られた)データから正確な確率を導き出すと、予期しない結果や望ましくない結果につながる統計的エラーが生じる。不確実なMDP (uMDPs) は正確な確率を必要としないが、そのような制限されたデータを考慮して、遷移においていわゆる不確実性セットを使用する。形式検証コミュニティのツールは、不確実性セットの最悪の例の下で、安全制約のような形式的仕様に確実に準拠する堅牢なポリシーを効率的に計算します。我々は、ベイズ推論スキームとロバストポリシーの計算を組み合わせた頑健な任意の時間学習アプローチで、MDPの遷移確率を継続的に学習する。特に,(1)間隔として確率を近似し,(2)中間モデルと矛盾する可能性のある新しいデータに適応し,(3)データを忠実にキャプチャするumdp上の強固なポリシーを計算するためにいつでも停止することができる。本手法の有効性をucrl2強化学習アルゴリズムで学習したumdpsに基づく強固なポリシーと比較し,いくつかのベンチマークにおける実験評価を行った。

関連論文リスト

Efficient Solution and Learning of Robust Factored MDPs [57.2416302384766]
未知の環境との相互作用からr-MDPを学習することで、性能保証による堅牢なポリシーの合成が可能になる。本稿では,因子状態表現に基づくr-MDPの解法と学習法を提案する。
論文参考訳（メタデータ） (2025-08-01T15:23:15Z)
Robust Counterfactual Inference in Markov Decision Processes [1.5197843979051473]
現在のアプローチでは、カウンターファクトを識別するために特定の因果モデルを想定している。反実遷移確率の厳密な境界を計算できる新しい非パラメトリック手法を提案する。
論文参考訳（メタデータ） (2025-02-19T13:56:20Z)
MIBP-Cert: Certified Training against Data Perturbations with Mixed-Integer Bilinear Programs [50.41998220099097]
トレーニング中のデータエラー、汚職、中毒攻撃は、現代のAIシステムの信頼性に大きな脅威をもたらす。混合整数双線形プログラミング(MIBP)に基づく新しい認証手法MIBP-Certを紹介する。摂動データや操作データを通じて到達可能なパラメータの集合を計算することで、可能なすべての結果を予測することができ、堅牢性を保証することができる。
論文参考訳（メタデータ） (2024-12-13T14:56:39Z)
Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文参考訳（メタデータ） (2024-06-06T17:37:39Z)
What Are the Odds? Improving the foundations of Statistical Model Checking [3.789219860006095]
マルコフ決定プロセス(MDP)は不確実性の下での意思決定の基本的なモデルである。従来の検証アルゴリズムは、MDPの振る舞いを管理する確率の正確な知識を前提としている。我々はMDPの知識を活用する専門的なアプローチを提案する。
論文参考訳（メタデータ） (2024-04-08T11:47:46Z)
Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文参考訳（メタデータ） (2024-03-29T18:11:49Z)
Efficient Conformal Prediction under Data Heterogeneity [79.35418041861327]
コンフォーマル予測(CP)は不確実性定量化のための頑健な枠組みである。非交換性に対処するための既存のアプローチは、最も単純な例を超えて計算不可能なメソッドにつながる。この研究は、比較的一般的な非交換可能なデータ分布に対して証明可能な信頼セットを生成する、CPに新しい効率的なアプローチを導入する。
論文参考訳（メタデータ） (2023-12-25T20:02:51Z)
Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文参考訳（メタデータ） (2023-01-31T12:40:50Z)
Robust Control for Dynamical Systems With Non-Gaussian Noise via Formal Abstractions [59.605246463200736]
雑音分布の明示的な表現に依存しない新しい制御器合成法を提案する。まず、連続制御系を有限状態モデルに抽象化し、離散状態間の確率的遷移によってノイズを捕捉する。我々は最先端の検証技術を用いてマルコフ決定プロセスの間隔を保証し、これらの保証が元の制御システムに受け継がれるコントローラを演算する。
論文参考訳（メタデータ） (2023-01-04T10:40:30Z)
Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文参考訳（メタデータ） (2022-05-30T18:40:28Z)
Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文参考訳（メタデータ） (2021-12-31T09:50:46Z)
Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian Noise [59.47042225257565]
雑音分布の明示的な表現に依存しない新しい計画法を提案する。まず、連続系を離散状態モデルに抽象化し、状態間の確率的遷移によってノイズを捕捉する。いわゆる区間マルコフ決定過程(iMDP)の遷移確率区間におけるこれらの境界を捉える。
論文参考訳（メタデータ） (2021-10-25T06:18:55Z)
Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。 i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文参考訳（メタデータ） (2021-05-20T01:57:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。