論文の概要: Conformal Off-Policy Prediction
- arxiv url: http://arxiv.org/abs/2206.06711v1
- Date: Tue, 14 Jun 2022 09:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 14:16:38.335929
- Title: Conformal Off-Policy Prediction
- Title(参考訳): 共形オフポリシー予測
- Authors: Yingying Zhang, Chengchun Shi, Shikai Luo
- Abstract要約: 我々は,任意の初期状態から開始した目標ポリシの戻り値に対する信頼区間推定器を作成するための新しい手法を開発した。
私たちの基本的な考え方は、ターゲットポリシーからサンプルされたサブサンプルを生成する擬似ポリシーを設計することにあります。
- 参考スコア(独自算出の注目度): 14.83348592874271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation is critical in a number of applications where new
policies need to be evaluated offline before online deployment. Most existing
methods focus on the expected return, define the target parameter through
averaging and provide a point estimator only. In this paper, we develop a novel
procedure to produce reliable interval estimators for a target policy's return
starting from any initial state. Our proposal accounts for the variability of
the return around its expectation, focuses on the individual effect and offers
valid uncertainty quantification. Our main idea lies in designing a pseudo
policy that generates subsamples as if they were sampled from the target policy
so that existing conformal prediction algorithms are applicable to prediction
interval construction. Our methods are justified by theories, synthetic data
and real data from short-video platforms.
- Abstract(参考訳): オンラインデプロイの前に新しいポリシーをオフラインで評価する必要がある多くのアプリケーションでは、オフポリシー評価が重要である。
既存のほとんどのメソッドは期待した戻り値にフォーカスし、平均化によってターゲットパラメータを定義し、ポイント推定器のみを提供する。
本稿では,任意の初期状態から開始した目標ポリシの戻り値に対する信頼区間推定器を作成するための新しい手法を開発する。
本提案は,期待値の変動を考慮し,個人効果に着目し,妥当な不確実性定量化を提供する。
提案手法は,対象ポリシーからサンプル化したサブサンプルを生成する擬似ポリシーを設計し,既存の共形予測アルゴリズムを予測区間構築に適用することにある。
提案手法は, 理論, 合成データ, およびショートビデオプラットフォームの実データによって正当化される。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。