論文の概要: Will My Robot Achieve My Goals? Predicting the Probability that an MDP Policy Reaches a User-Specified Behavior Target
- arxiv url: http://arxiv.org/abs/2211.16462v2
- Date: Tue, 2 Apr 2024 21:15:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 23:47:24.269742
- Title: Will My Robot Achieve My Goals? Predicting the Probability that an MDP Policy Reaches a User-Specified Behavior Target
- Title(参考訳): 私のロボットは目標を達成するか? MDPポリシーがユーザ特定行動目標に到達する確率を予測する
- Authors: Alexander Guyer, Thomas G. Dietterich,
- Abstract要約: 自律的なシステムがタスクを実行する場合、ユーザの目標を達成する確率のキャリブレーションされた見積もりを維持する必要がある。
本稿では,ユーザの目標が目標間隔として指定される設定について検討する。
我々は、共形予測を反転させて確率推定を計算する。
- 参考スコア(独自算出の注目度): 56.99669411766284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As an autonomous system performs a task, it should maintain a calibrated estimate of the probability that it will achieve the user's goal. If that probability falls below some desired level, it should alert the user so that appropriate interventions can be made. This paper considers settings where the user's goal is specified as a target interval for a real-valued performance summary, such as the cumulative reward, measured at a fixed horizon $H$. At each time $t \in \{0, \ldots, H-1\}$, our method produces a calibrated estimate of the probability that the final cumulative reward will fall within a user-specified target interval $[y^-,y^+].$ Using this estimate, the autonomous system can raise an alarm if the probability drops below a specified threshold. We compute the probability estimates by inverting conformal prediction. Our starting point is the Conformalized Quantile Regression (CQR) method of Romano et al., which applies split-conformal prediction to the results of quantile regression. CQR is not invertible, but by using the conditional cumulative distribution function (CDF) as the non-conformity measure, we show how to obtain an invertible modification that we call Probability-space Conformalized Quantile Regression (PCQR). Like CQR, PCQR produces well-calibrated conditional prediction intervals with finite-sample marginal guarantees. By inverting PCQR, we obtain guarantees for the probability that the cumulative reward of an autonomous system will fall below a threshold sampled from the marginal distribution of the response variable (i.e., a calibrated CDF estimate) that we employ to predict coverage probabilities for user-specified target intervals. Experiments on two domains confirm that these probabilities are well-calibrated.
- Abstract(参考訳): 自律的なシステムがタスクを実行する場合、ユーザの目標を達成する確率のキャリブレーションされた見積もりを維持する必要がある。
その確率が望ましいレベルを下回ると、適切な介入ができるようにユーザに警告するべきです。
本稿では,ユーザの目標を,固定地平線で測定した累積報酬などの実数値パフォーマンスサマリーの目標区間として指定した設定について考察する。
この手法は,各時間に$t \in \{0, \ldots, H-1\}$で,最終累積報酬がユーザ指定の目標区間$[y^-,y^+]に該当する確率のキャリブレーションされた推定値を生成する。
この推定値を使用することで、確率が指定された閾値以下に低下した場合、自律システムは警報を発生させることができる。
我々は、共形予測を反転させて確率推定を計算する。
我々の出発点は、ロマノらによるコンフォーマル化量子回帰(CQR)法であり、量子回帰の結果に分割等角予測を適用する。
CQRは可逆ではないが、条件付き累積分布関数(CDF)を非整合度尺度として使用することにより、Probability-space Conformalized Quantile Regression (PCQR)と呼ばれる可逆的な修正を得る方法を示す。
CQRと同様に、PCQRは有限サンプルの限界保証付き条件付き予測区間を生成する。
PCQRを逆転することにより、ユーザ特定対象区間のカバレッジ確率を予測するために使用する応答変数(キャリブレーションCDF推定)の限界分布からサンプリングした閾値以下で自律システムの累積報酬が低下する確率が保証される。
2つの領域の実験は、これらの確率が十分に校正されていることを確認した。
関連論文リスト
- Regression Trees for Fast and Adaptive Prediction Intervals [2.6763498831034043]
本稿では,局所的なカバレッジ保証を伴う回帰問題に対して,予測間隔を調整するための一連の手法を提案する。
回帰木とランダムフォレストを適合度スコアでトレーニングすることで分割を作成する。
提案手法は多種多様な適合性スコアや予測設定に適用できるため,多種多様である。
論文 参考訳(メタデータ) (2024-02-12T01:17:09Z) - Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。
本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文 参考訳(メタデータ) (2023-11-03T21:19:59Z) - PAC Prediction Sets Under Label Shift [52.30074177997787]
予測セットは、個々のラベルではなくラベルのセットを予測することによって不確実性を捉える。
ラベルシフト設定においてPAC保証付き予測セットを構築するための新しいアルゴリズムを提案する。
提案手法を5つのデータセットで評価する。
論文 参考訳(メタデータ) (2023-10-19T17:57:57Z) - Integrating Uncertainty Awareness into Conformalized Quantile Regression [12.875863572064986]
本稿では,特徴空間全体にわたって量子回帰器を微分的に調整するコンフォーマル化量子回帰(CQR)手法を提案する。
CQRと比較して,本手法は,シミュレーション設定や実世界のデータセットなどにおいて,より強い条件付きカバレッジ特性を示しながら,分布のない理論的カバレッジ保証を享受する。
論文 参考訳(メタデータ) (2023-06-14T18:28:53Z) - Post-selection Inference for Conformal Prediction: Trading off Coverage
for Precision [0.0]
伝統的に、共形予測推論はデータに依存しない発見レベルの仕様を必要とする。
我々は,データ依存的誤発見レベルを考慮した同時共形推論を開発する。
論文 参考訳(メタデータ) (2023-04-12T20:56:43Z) - Conformal Prediction Intervals for Markov Decision Process Trajectories [10.68332392039368]
本稿では、マルコフ決定プロセス(MDP)上で固定制御ポリシーを実行する自律システムの将来の挙動に関する共形予測区間を提供する。
この方法は、侵略的な種管理とStarCraft2の戦いのためのMDPに説明されている。
論文 参考訳(メタデータ) (2022-06-10T03:43:53Z) - Conditionally Calibrated Predictive Distributions by
Probability-Probability Map: Application to Galaxy Redshift Estimation and
Probabilistic Forecasting [4.186140302617659]
不確実性は、AIアルゴリズムの予測能力を評価するために不可欠である。
PD診断と再校正の両方に対処する textttCal-PIT を提案する。
修正した予測帯域を、オラクルバンドと最先端の予測推論アルゴリズムに対してベンチマークする。
論文 参考訳(メタデータ) (2022-05-29T03:52:44Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Distribution-free uncertainty quantification for classification under
label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。
まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。
これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文 参考訳(メタデータ) (2021-03-04T20:51:03Z) - Individual Calibration with Randomized Forecasting [116.2086707626651]
予測値がランダムに設定された場合,各サンプルのキャリブレーションは回帰設定で可能であることを示す。
我々は、個別の校正を強制する訓練目標を設計し、それをランダム化された回帰関数の訓練に使用する。
論文 参考訳(メタデータ) (2020-06-18T05:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。