論文の概要: Will My Robot Achieve My Goals? Predicting the Probability that an MDP Policy Reaches a User-Specified Behavior Target
- arxiv url: http://arxiv.org/abs/2211.16462v2
- Date: Tue, 2 Apr 2024 21:15:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 23:47:24.269742
- Title: Will My Robot Achieve My Goals? Predicting the Probability that an MDP Policy Reaches a User-Specified Behavior Target
- Title(参考訳): 私のロボットは目標を達成するか? MDPポリシーがユーザ特定行動目標に到達する確率を予測する
- Authors: Alexander Guyer, Thomas G. Dietterich,
- Abstract要約: 自律的なシステムがタスクを実行する場合、ユーザの目標を達成する確率のキャリブレーションされた見積もりを維持する必要がある。
本稿では,ユーザの目標が目標間隔として指定される設定について検討する。
我々は、共形予測を反転させて確率推定を計算する。
- 参考スコア(独自算出の注目度): 56.99669411766284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As an autonomous system performs a task, it should maintain a calibrated estimate of the probability that it will achieve the user's goal. If that probability falls below some desired level, it should alert the user so that appropriate interventions can be made. This paper considers settings where the user's goal is specified as a target interval for a real-valued performance summary, such as the cumulative reward, measured at a fixed horizon $H$. At each time $t \in \{0, \ldots, H-1\}$, our method produces a calibrated estimate of the probability that the final cumulative reward will fall within a user-specified target interval $[y^-,y^+].$ Using this estimate, the autonomous system can raise an alarm if the probability drops below a specified threshold. We compute the probability estimates by inverting conformal prediction. Our starting point is the Conformalized Quantile Regression (CQR) method of Romano et al., which applies split-conformal prediction to the results of quantile regression. CQR is not invertible, but by using the conditional cumulative distribution function (CDF) as the non-conformity measure, we show how to obtain an invertible modification that we call Probability-space Conformalized Quantile Regression (PCQR). Like CQR, PCQR produces well-calibrated conditional prediction intervals with finite-sample marginal guarantees. By inverting PCQR, we obtain guarantees for the probability that the cumulative reward of an autonomous system will fall below a threshold sampled from the marginal distribution of the response variable (i.e., a calibrated CDF estimate) that we employ to predict coverage probabilities for user-specified target intervals. Experiments on two domains confirm that these probabilities are well-calibrated.
- Abstract(参考訳): 自律的なシステムがタスクを実行する場合、ユーザの目標を達成する確率のキャリブレーションされた見積もりを維持する必要がある。
その確率が望ましいレベルを下回ると、適切な介入ができるようにユーザに警告するべきです。
本稿では,ユーザの目標を,固定地平線で測定した累積報酬などの実数値パフォーマンスサマリーの目標区間として指定した設定について考察する。
この手法は,各時間に$t \in \{0, \ldots, H-1\}$で,最終累積報酬がユーザ指定の目標区間$[y^-,y^+]に該当する確率のキャリブレーションされた推定値を生成する。
この推定値を使用することで、確率が指定された閾値以下に低下した場合、自律システムは警報を発生させることができる。
我々は、共形予測を反転させて確率推定を計算する。
我々の出発点は、ロマノらによるコンフォーマル化量子回帰(CQR)法であり、量子回帰の結果に分割等角予測を適用する。
CQRは可逆ではないが、条件付き累積分布関数(CDF)を非整合度尺度として使用することにより、Probability-space Conformalized Quantile Regression (PCQR)と呼ばれる可逆的な修正を得る方法を示す。
CQRと同様に、PCQRは有限サンプルの限界保証付き条件付き予測区間を生成する。
PCQRを逆転することにより、ユーザ特定対象区間のカバレッジ確率を予測するために使用する応答変数(キャリブレーションCDF推定)の限界分布からサンプリングした閾値以下で自律システムの累積報酬が低下する確率が保証される。
2つの領域の実験は、これらの確率が十分に校正されていることを確認した。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - Verifiably Robust Conformal Prediction [1.391198481393699]
本稿では、ニューラルネットワーク検証手法を利用して、敵攻撃時のカバレッジ保証を回復する新しいフレームワークであるVRCP(Verifiably Robust Conformal Prediction)を紹介する。
私たちのメソッドは、回帰タスクだけでなく、$ell1$, $ell2$, $ellinfty$といった任意のノルムで束縛された摂動をサポートする最初の方法です。
いずれの場合も、VRCPは名目上の範囲を達成し、SotAよりもはるかに効率的で情報的な予測領域が得られる。
論文 参考訳(メタデータ) (2024-05-29T09:50:43Z) - Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。
本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文 参考訳(メタデータ) (2023-11-03T21:19:59Z) - PAC Prediction Sets Under Label Shift [52.30074177997787]
予測セットは、個々のラベルではなくラベルのセットを予測することによって不確実性を捉える。
ラベルシフト設定においてPAC保証付き予測セットを構築するための新しいアルゴリズムを提案する。
提案手法を5つのデータセットで評価する。
論文 参考訳(メタデータ) (2023-10-19T17:57:57Z) - Integrating Uncertainty Awareness into Conformalized Quantile Regression [12.875863572064986]
本稿では,特徴空間全体にわたって量子回帰器を微分的に調整するコンフォーマル化量子回帰(CQR)手法を提案する。
CQRと比較して,本手法は,シミュレーション設定や実世界のデータセットなどにおいて,より強い条件付きカバレッジ特性を示しながら,分布のない理論的カバレッジ保証を享受する。
論文 参考訳(メタデータ) (2023-06-14T18:28:53Z) - Post-selection Inference for Conformal Prediction: Trading off Coverage
for Precision [0.0]
伝統的に、共形予測推論はデータに依存しない発見レベルの仕様を必要とする。
我々は,データ依存的誤発見レベルを考慮した同時共形推論を開発する。
論文 参考訳(メタデータ) (2023-04-12T20:56:43Z) - Conformal Prediction Intervals for Markov Decision Process Trajectories [10.68332392039368]
本稿では、マルコフ決定プロセス(MDP)上で固定制御ポリシーを実行する自律システムの将来の挙動に関する共形予測区間を提供する。
この方法は、侵略的な種管理とStarCraft2の戦いのためのMDPに説明されている。
論文 参考訳(メタデータ) (2022-06-10T03:43:53Z) - Conditionally Calibrated Predictive Distributions by
Probability-Probability Map: Application to Galaxy Redshift Estimation and
Probabilistic Forecasting [4.186140302617659]
不確実性は、AIアルゴリズムの予測能力を評価するために不可欠である。
PD診断と再校正の両方に対処する textttCal-PIT を提案する。
修正した予測帯域を、オラクルバンドと最先端の予測推論アルゴリズムに対してベンチマークする。
論文 参考訳(メタデータ) (2022-05-29T03:52:44Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。