論文の概要: Quantile Off-Policy Evaluation via Deep Conditional Generative Learning
- arxiv url: http://arxiv.org/abs/2212.14466v1
- Date: Thu, 29 Dec 2022 22:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:46:56.478640
- Title: Quantile Off-Policy Evaluation via Deep Conditional Generative Learning
- Title(参考訳): 深層条件生成学習による質的オフポリシー評価
- Authors: Yang Xu, Chengchun Shi, Shikai Luo, Lan Wang, and Rui Song
- Abstract要約: Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
- 参考スコア(独自算出の注目度): 21.448553360543478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-Policy evaluation (OPE) is concerned with evaluating a new target policy
using offline data generated by a potentially different behavior policy. It is
critical in a number of sequential decision making problems ranging from
healthcare to technology industries. Most of the work in existing literature is
focused on evaluating the mean outcome of a given policy, and ignores the
variability of the outcome. However, in a variety of applications, criteria
other than the mean may be more sensible. For example, when the reward
distribution is skewed and asymmetric, quantile-based metrics are often
preferred for their robustness. In this paper, we propose a doubly-robust
inference procedure for quantile OPE in sequential decision making and study
its asymptotic properties. In particular, we propose utilizing state-of-the-art
deep conditional generative learning methods to handle parameter-dependent
nuisance function estimation. We demonstrate the advantages of this proposed
estimator through both simulations and a real-world dataset from a short-video
platform. In particular, we find that our proposed estimator outperforms
classical OPE estimators for the mean in settings with heavy-tailed reward
distributions.
- Abstract(参考訳): Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
医療から技術産業まで、連続的な意思決定の問題において非常に重要である。
既存の文献における研究のほとんどは、与えられた方針の平均的な結果を評価することに集中しており、結果の変動性を無視している。
しかし、様々な応用において、平均以外の基準はより賢明であるかもしれない。
例えば、報酬分布が歪んで非対称な場合には、その堅牢性のために量子的基準が好まれる。
本稿では, 逐次決定における量子化OPEの2次ロバスト推論手法を提案し, その漸近特性について検討する。
特に,最先端の深部条件生成学習法を用いてパラメータ依存的ニュアサンス関数推定法を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
特に,提案した推定器は,重み付き報酬分布の設定において,従来のOPE推定器よりも優れていた。
関連論文リスト
- Automated Off-Policy Estimator Selection via Supervised Learning [7.476028372444458]
オフ・ポリティ・アセスメント(OPE)問題(Off-Policy Evaluation)は、相手が収集したデータを用いて、対実的なポリシーの性能を評価することである。
OPEの問題を解決するために,我々は,ロギングポリシに代えて配置された場合の対策策が持つパフォーマンスを,最も正確な方法で推定することを目的とした推定器を利用する。
教師付き学習に基づく自動データ駆動型OPE推定器選択法を提案する。
論文 参考訳(メタデータ) (2024-06-26T02:34:48Z) - OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Deeply-Debiased Off-Policy Interval Estimation [11.683223078990325]
オフ政治評価は、異なる行動ポリシーによって生成された過去のデータセットでターゲットポリシーの価値を学習する。
多くのアプリケーションは、ポイント推定の不確実性を定量化する信頼区間(CI)を持つことで大きな利益を得るでしょう。
ターゲットポリシーの価値に効率的で堅牢で柔軟なCIを構築するための新しい手順を提案します。
論文 参考訳(メタデータ) (2021-05-10T20:00:08Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Statistical Inference of the Value Function for Reinforcement Learning
in Infinite Horizon Settings [0.0]
我々は、決定ポイントの数が無限大に分散する無限の地平線設定において、ポリシーの値に対する信頼区間(CI)を構築する。
最適方針が一意でない場合でも,提案したCIが名目上のカバレッジを達成することを示す。
提案手法をモバイル健康研究のデータセットに適用し, 強化学習アルゴリズムが患者の健康状態を改善するのに役立つことを確かめた。
論文 参考訳(メタデータ) (2020-01-13T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。