論文の概要: Conformal Prediction Intervals for Markov Decision Process Trajectories
- arxiv url: http://arxiv.org/abs/2206.04860v1
- Date: Fri, 10 Jun 2022 03:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:29:22.219592
- Title: Conformal Prediction Intervals for Markov Decision Process Trajectories
- Title(参考訳): マルコフ決定過程軌跡の共形予測間隔
- Authors: Thomas G. Dietterich, Jesse Hostetler
- Abstract要約: 本稿では、マルコフ決定プロセス(MDP)上で固定制御ポリシーを実行する自律システムの将来の挙動に関する共形予測区間を提供する。
この方法は、侵略的な種管理とStarCraft2の戦いのためのMDPに説明されている。
- 参考スコア(独自算出の注目度): 10.68332392039368
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Before delegating a task to an autonomous system, a human operator may want a
guarantee about the behavior of the system. This paper extends previous work on
conformal prediction for functional data and conformalized quantile regression
to provide conformal prediction intervals over the future behavior of an
autonomous system executing a fixed control policy on a Markov Decision Process
(MDP). The prediction intervals are constructed by applying conformal
corrections to prediction intervals computed by quantile regression. The
resulting intervals guarantee that with probability $1-\delta$ the observed
trajectory will lie inside the prediction interval, where the probability is
computed with respect to the starting state distribution and the stochasticity
of the MDP. The method is illustrated on MDPs for invasive species management
and StarCraft2 battles.
- Abstract(参考訳): タスクを自律システムに委譲する前に、人間のオペレータはシステムの振る舞いに関する保証を求めるかもしれない。
本稿では, マルコフ決定過程 (mdp) における定型制御ポリシーを実行する自律システムの将来の行動に関する定形予測間隔を提供するため, 関数データと定形分位回帰の共形予測に関する先行研究を拡張した。
予測間隔は、分位回帰によって計算された予測間隔に共形補正を適用することによって構成される。
結果として得られた区間は、確率1-\delta$で観測された軌道が予測区間内にあることを保証し、確率は、開始状態分布とMDPの確率性に関して計算される。
この手法はmdpで侵入種管理とstarcraft2の戦闘のために示されている。
関連論文リスト
- SMURF-THP: Score Matching-based UnceRtainty quantiFication for
Transformer Hawkes Process [76.98721879039559]
SMURF-THPは,変圧器ホークス過程を学習し,予測の不確かさを定量化するスコアベース手法である。
具体的には、SMURF-THPは、スコアマッチング目標に基づいて、イベントの到着時刻のスコア関数を学習する。
我々は,イベントタイプ予測と到着時刻の不確実性定量化の両方において,広範な実験を行う。
論文 参考訳(メタデータ) (2023-10-25T03:33:45Z) - Confidence Calibration for Systems with Cascaded Predictive Modules [9.393699753285997]
本稿では,共形予測に基づく新しい解を提案する。
我々のキーとなる考え方は、モジュールレベルの検証データを利用して、エンドツーエンドの検証データに直接アクセスすることなく、システムレベルのエラー分布を特徴付けることです。
個々のモジュールに対して校正された予測間隔と比較して,システム予測の性能保証がより正確である改良間隔を生成する。
論文 参考訳(メタデータ) (2023-09-21T22:12:24Z) - Model Predictive Control with Gaussian-Process-Supported Dynamical
Constraints for Autonomous Vehicles [82.65261980827594]
本研究では、学習したガウス過程を利用して人間の運転行動を予測する自動運転車のモデル予測制御手法を提案する。
マルチモード予測制御アプローチは、人間のドライバーの意図を考察する。
論文 参考訳(メタデータ) (2023-03-08T17:14:57Z) - Will My Robot Achieve My Goals? Predicting the Probability that an MDP Policy Reaches a User-Specified Behavior Target [56.99669411766284]
自律的なシステムがタスクを実行する場合、ユーザの目標を達成する確率のキャリブレーションされた見積もりを維持する必要がある。
本稿では,ユーザの目標が目標間隔として指定される設定について検討する。
我々は、共形予測を反転させて確率推定を計算する。
論文 参考訳(メタデータ) (2022-11-29T18:41:20Z) - Conformal Quantitative Predictive Monitoring of STL Requirements for
Stochastic Processes [4.279881803310469]
Signal Temporal Logic (STL) で与えられたプロセスと豊富な仕様をサポートする最初のPM法である textitquantitative predictive monitoring (QPM) を導入する。
QPMは、$phi$の量的(いわゆる頑健な)STLセマンティクスを予測することで満足度を定量的に測定する。
合成式を扱うために,我々のモニタをどのように構成的に組み合わせることができるかを示す。
論文 参考訳(メタデータ) (2022-11-04T11:08:29Z) - A general framework for multi-step ahead adaptive conformal
heteroscedastic time series forecasting [0.0]
本稿では,適応アンサンブルバッチ多出力多出力共形量子化回帰(AEnbMIMOCQR)と呼ばれる新しいモデル非依存アルゴリズムを提案する。
これにより、予測者は、固定された特定された誤発見率に対して、分布のない方法で、複数段階の事前予測間隔を生成できる。
本手法は, 整合予測の原理に基づいているが, データの分割は不要であり, データの交換ができない場合でも, ほぼ正確なカバレッジを提供する。
論文 参考訳(メタデータ) (2022-07-28T16:40:26Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - CovarianceNet: Conditional Generative Model for Correct Covariance
Prediction in Human Motion Prediction [71.31516599226606]
本稿では,将来の軌道の予測分布に関連する不確かさを正確に予測する手法を提案する。
我々のアプローチであるCovariaceNetは、ガウス潜在変数を持つ条件付き生成モデルに基づいている。
論文 参考訳(メタデータ) (2021-09-07T09:38:24Z) - Neural Predictive Monitoring under Partial Observability [4.1316328854247155]
本稿では,部分観測可能性(PO)に拘わらず,正確かつ信頼性の高い到達可能性予測を生成する学習ベース予測手法を提案する。
提案手法は,精度の高い到達可能性予測とエラー検出を行い,また,カバー範囲が保証された厳密な予測領域を実現する。
論文 参考訳(メタデータ) (2021-08-16T15:08:20Z) - Prediction Intervals: Split Normal Mixture from Quality-Driven Deep
Ensembles [4.521131595149397]
本稿では,ニューラルネットワークのアンサンブルからの点推定値とともに予測間隔を生成する手法を提案する。
本稿では,予測間隔と点推定に関する品質指標を融合した多目的損失関数と,結果のセマンティックな整合性を実現するペナルティ関数を提案する。
この結果から, 品質駆動型損失関数と集約法の両方が, 精度のよい予測間隔と点推定に寄与することが示唆された。
論文 参考訳(メタデータ) (2020-07-19T13:46:34Z) - Batch Stationary Distribution Estimation [98.18201132095066]
サンプル遷移の組を与えられたエルゴードマルコフ鎖の定常分布を近似する問題を考える。
与えられたデータに対する補正比関数の復元に基づく一貫した推定器を提案する。
論文 参考訳(メタデータ) (2020-03-02T09:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。