論文の概要: Will My Robot Achieve My Goals? Predicting the Probability that an MDP
Policy Reaches a User-Specified Behavior Target
- arxiv url: http://arxiv.org/abs/2211.16462v1
- Date: Tue, 29 Nov 2022 18:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 15:47:03.797855
- Title: Will My Robot Achieve My Goals? Predicting the Probability that an MDP
Policy Reaches a User-Specified Behavior Target
- Title(参考訳): 私のロボットは私の目標を達成するか?
MDPポリシーがユーザ特定行動目標に到達する確率を予測する
- Authors: Alexander Guyer, Thomas G. Dietterich
- Abstract要約: 自律的なシステムがタスクを実行する場合、ユーザの目標を達成する確率のキャリブレーションされた見積もりを維持する必要がある。
本稿では,ユーザの目標が目標間隔として指定される設定について検討する。
我々は、共形予測を反転させて確率推定を計算する。
- 参考スコア(独自算出の注目度): 86.39044549664189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As an autonomous system performs a task, it should maintain a calibrated
estimate of the probability that it will achieve the user's goal. If that
probability falls below some desired level, it should alert the user so that
appropriate interventions can be made. This paper considers settings where the
user's goal is specified as a target interval for a real-valued performance
summary, such as the cumulative reward, measured at a fixed horizon $H$. At
each time $t \in \{0, \ldots, H-1\}$, our method produces a calibrated estimate
of the probability that the final cumulative reward will fall within a
user-specified target interval $[y^-,y^+].$ Using this estimate, the autonomous
system can raise an alarm if the probability drops below a specified threshold.
We compute the probability estimates by inverting conformal prediction. Our
starting point is the Conformalized Quantile Regression (CQR) method of Romano
et al., which applies split-conformal prediction to the results of quantile
regression. CQR is not invertible, but by using the conditional cumulative
distribution function (CDF) as the non-conformity measure, we show how to
obtain an invertible modification that we call \textbf{P}robability-space
\textbf{C}onformalized \textbf{Q}uantile \textbf{R}egression (PCQR). Like CQR,
PCQR produces well-calibrated conditional prediction intervals with
finite-sample marginal guarantees. By inverting PCQR, we obtain marginal
guarantees for the probability that the cumulative reward of an autonomous
system will fall within an arbitrary user-specified target intervals.
Experiments on two domains confirm that these probabilities are
well-calibrated.
- Abstract(参考訳): 自律的なシステムがタスクを実行する場合、ユーザの目標を達成する確率のキャリブレーションされた見積もりを維持する必要がある。
その確率が所望のレベルを下回る場合は、適切な介入ができるようにユーザーに警告する必要がある。
本稿では,ユーザの目標を,固定地平線で測定した累積報酬などの実数値パフォーマンスサマリーの目標区間として指定した設定について考察する。
この手法は,各時間に$t \in \{0, \ldots, H-1\}$で,最終累積報酬がユーザ指定の目標区間$[y^-,y^+]に該当する確率のキャリブレーションされた推定値を生成する。
この推定値を使えば、確率が特定のしきい値を下回れば、自律システムはアラームを鳴らすことができる。
我々は共形予測を反転させて確率推定を計算する。
我々の出発点はロマーノ等による共形分位回帰法(conformalized quantile regression, cqr)法であり、分位回帰の結果に分割共形予測を適用する。
CQR は可逆ではないが、条件付き累積分布関数 (CDF) を非整合度測度として用いることで、可逆な修正を得る方法を示し、それを \textbf{P}robability-space \textbf{C}onformalized \textbf{Q}uantile \textbf{R}egression (PCQR) と呼ぶ。
CQRと同様に、PCQRは有限サンプル境界保証付き条件付き予測区間を生成する。
PCQRを反転させることにより、自律システムの累積報酬が任意のユーザ指定対象区間に収まる確率の限界保証を得る。
2つの領域の実験は、これらの確率が十分に校正されていることを確認した。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - Verifiably Robust Conformal Prediction [1.391198481393699]
本稿では、ニューラルネットワーク検証手法を利用して、敵攻撃時のカバレッジ保証を回復する新しいフレームワークであるVRCP(Verifiably Robust Conformal Prediction)を紹介する。
私たちのメソッドは、回帰タスクだけでなく、$ell1$, $ell2$, $ellinfty$といった任意のノルムで束縛された摂動をサポートする最初の方法です。
いずれの場合も、VRCPは名目上の範囲を達成し、SotAよりもはるかに効率的で情報的な予測領域が得られる。
論文 参考訳(メタデータ) (2024-05-29T09:50:43Z) - Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。
本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文 参考訳(メタデータ) (2023-11-03T21:19:59Z) - PAC Prediction Sets Under Label Shift [52.30074177997787]
予測セットは、個々のラベルではなくラベルのセットを予測することによって不確実性を捉える。
ラベルシフト設定においてPAC保証付き予測セットを構築するための新しいアルゴリズムを提案する。
提案手法を5つのデータセットで評価する。
論文 参考訳(メタデータ) (2023-10-19T17:57:57Z) - Integrating Uncertainty Awareness into Conformalized Quantile Regression [12.875863572064986]
本稿では,特徴空間全体にわたって量子回帰器を微分的に調整するコンフォーマル化量子回帰(CQR)手法を提案する。
CQRと比較して,本手法は,シミュレーション設定や実世界のデータセットなどにおいて,より強い条件付きカバレッジ特性を示しながら,分布のない理論的カバレッジ保証を享受する。
論文 参考訳(メタデータ) (2023-06-14T18:28:53Z) - Post-selection Inference for Conformal Prediction: Trading off Coverage
for Precision [0.0]
伝統的に、共形予測推論はデータに依存しない発見レベルの仕様を必要とする。
我々は,データ依存的誤発見レベルを考慮した同時共形推論を開発する。
論文 参考訳(メタデータ) (2023-04-12T20:56:43Z) - Conformal Prediction Intervals for Markov Decision Process Trajectories [10.68332392039368]
本稿では、マルコフ決定プロセス(MDP)上で固定制御ポリシーを実行する自律システムの将来の挙動に関する共形予測区間を提供する。
この方法は、侵略的な種管理とStarCraft2の戦いのためのMDPに説明されている。
論文 参考訳(メタデータ) (2022-06-10T03:43:53Z) - Conditionally Calibrated Predictive Distributions by
Probability-Probability Map: Application to Galaxy Redshift Estimation and
Probabilistic Forecasting [4.186140302617659]
不確実性は、AIアルゴリズムの予測能力を評価するために不可欠である。
PD診断と再校正の両方に対処する textttCal-PIT を提案する。
修正した予測帯域を、オラクルバンドと最先端の予測推論アルゴリズムに対してベンチマークする。
論文 参考訳(メタデータ) (2022-05-29T03:52:44Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。