論文の概要: PERRY: Policy Evaluation with Confidence Intervals using Auxiliary Data
- arxiv url: http://arxiv.org/abs/2507.20068v1
- Date: Sat, 26 Jul 2025 21:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.863573
- Title: PERRY: Policy Evaluation with Confidence Intervals using Auxiliary Data
- Title(参考訳): PERRY:補助データを用いた信頼区間による政策評価
- Authors: Aishwarya Mandyam, Jason Meng, Ge Gao, Jiankai Sun, Mac Schwager, Barbara E. Engelhardt, Emma Brunskill,
- Abstract要約: オフ政治評価(OPE)手法は,展開前の新たな強化学習(RL)政策の価値を推定することを目的としている。
データ拡張を利用する場合、OPEに対して有効な信頼区間を構築するための2つの方法を提案する。
- 参考スコア(独自算出の注目度): 36.6443700664411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy evaluation (OPE) methods aim to estimate the value of a new reinforcement learning (RL) policy prior to deployment. Recent advances have shown that leveraging auxiliary datasets, such as those synthesized by generative models, can improve the accuracy of these value estimates. Unfortunately, such auxiliary datasets may also be biased, and existing methods for using data augmentation for OPE in RL lack principled uncertainty quantification. In high stakes settings like healthcare, reliable uncertainty estimates are important for comparing policy value estimates. In this work, we propose two approaches to construct valid confidence intervals for OPE when using data augmentation. The first provides a confidence interval over the policy performance conditioned on a particular initial state $V^{\pi}(s_0)$-- such intervals are particularly important for human-centered applications. To do so we introduce a new conformal prediction method for high dimensional state MDPs. Second, we consider the more common task of estimating the average policy performance over many initial states; to do so we draw on ideas from doubly robust estimation and prediction powered inference. Across simulators spanning robotics, healthcare and inventory management, and a real healthcare dataset from MIMIC-IV, we find that our methods can use augmented data and still consistently produce intervals that cover the ground truth values, unlike previously proposed methods.
- Abstract(参考訳): オフ政治評価(OPE)手法は,展開前の新たな強化学習(RL)政策の価値を推定することを目的としている。
近年の進歩は、生成モデルによって合成されたような補助的データセットを活用することにより、これらの値推定の精度が向上することを示している。
残念なことに、そのような補助データセットにもバイアスがかかり、RLにおけるOPEにデータ拡張を使用する既存の方法は、原理的な不確実性定量化を欠いている。
医療などの高リスク環境では、政策価値の推定を比較する上で、信頼性の高い不確実性推定が重要である。
本研究では,データ拡張を用いたOPEの信頼区間を構築するための2つの手法を提案する。
1つ目は、特定の初期状態である$V^{\pi}(s_0)$-で条件付けられたポリシー性能に対する信頼区間を提供する。
そこで我々は,高次元状態 MDP に対する新しい共形予測手法を提案する。
第二に、多くの初期状態における平均政策性能を推定するより一般的なタスクを考える。
ロボット工学、ヘルスケア、在庫管理、MIMIC-IVの実際の医療データセットにまたがるシミュレータ全体にわたって、我々の手法は拡張データを使用して、これまで提案されていた方法とは異なり、根底にある真理値をカバーする間隔を連続的に生成できることがわかった。
関連論文リスト
- Off-Policy Evaluation and Learning for the Future under Non-Stationarity [18.657003350333298]
今後のオフ政治評価(F-OPE)と学習(F-OPL)の新たな課題について検討する。
私たちのゴールは、前月の古い方針で収集されたデータを使って、来月の政策価値を見積り、最適化することにあります。
既存の方法は定常性を仮定するか、制限的な報酬モデリングの仮定に依存し、大きなバイアスをもたらす。
論文 参考訳(メタデータ) (2025-06-25T13:31:46Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old
Data in Nonstationary Environments [31.492146288630515]
回帰支援DR推定器(Regressive-Assisted DR estimator)と呼ばれる2重頑健(DR)推定器の変種を導入し、大きなバイアスを伴わずに過去のデータを組み込むことができる。
本研究では,新しい推定器が現在および将来の政策値の推定を改善することを実証的に示し,複数の非定常的推薦環境において厳密かつ有効な区間推定を提供する。
論文 参考訳(メタデータ) (2023-02-23T01:17:21Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Accountable Off-Policy Evaluation With Kernel Bellman Statistics [29.14119984573459]
我々は,以前の実験から収集した観測データから,新たな政策の評価を行うオフ・ポリティクス評価(OPE)について考察する。
政治外のデータからの情報が少ないため、点推定だけでなく厳密な信頼区間を構築することが望ましい。
我々は,OPEにおける厳密な信頼境界を計算する問題を削減するための新しい変分フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-15T07:24:38Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。