論文の概要: When is Off-Policy Evaluation Useful? A Data-Centric Perspective
- arxiv url: http://arxiv.org/abs/2311.14110v1
- Date: Thu, 23 Nov 2023 17:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:07:31.636459
- Title: When is Off-Policy Evaluation Useful? A Data-Centric Perspective
- Title(参考訳): オフポリティ評価はいつ有効か?
データ中心の視点
- Authors: Hao Sun, Alex J. Chan, Nabeel Seedat, Alihan H\"uy\"uk, Mihaela van
der Schaar
- Abstract要約: ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
- 参考スコア(独自算出の注目度): 60.76880827781716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the value of a hypothetical target policy with only a logged
dataset is important but challenging. On the one hand, it brings opportunities
for safe policy improvement under high-stakes scenarios like clinical
guidelines. On the other hand, such opportunities raise a need for precise
off-policy evaluation (OPE). While previous work on OPE focused on improving
the algorithm in value estimation, in this work, we emphasize the importance of
the offline dataset, hence putting forward a data-centric framework for
evaluating OPE problems. We propose DataCOPE, a data-centric framework for
evaluating OPE, that answers the questions of whether and to what extent we can
evaluate a target policy given a dataset. DataCOPE (1) forecasts the overall
performance of OPE algorithms without access to the environment, which is
especially useful before real-world deployment where evaluating OPE is
impossible; (2) identifies the sub-group in the dataset where OPE can be
inaccurate; (3) permits evaluations of datasets or data-collection strategies
for OPE problems. Our empirical analysis of DataCOPE in the logged contextual
bandit settings using healthcare datasets confirms its ability to evaluate both
machine-learning and human expert policies like clinical guidelines.
- Abstract(参考訳): ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
一方で、臨床ガイドラインのような高リスクシナリオの下で、安全な政策改善の機会をもたらす。
一方、このような機会は、正確な非政治評価(OPE)の必要性を高める。
OPEに関する以前の研究は、価値推定におけるアルゴリズムの改善に重点を置いていたが、この研究ではオフラインデータセットの重要性を強調し、OPE問題を評価するためのデータ中心のフレームワークを推進した。
我々は、データ中心のope評価フレームワークであるdatacopeを提案し、データセットが与えられた場合、ターゲットポリシーをどの程度評価できるかという疑問に答える。
データCOPE(1)は,OPE評価が不可能な実世界展開前において特に有用である環境へのアクセスのないOPEアルゴリズム全体の性能を予測し,(2)OPEが不正確なデータセット内のサブグループを特定し,(3)OPE問題に対するデータセットの評価やデータ収集戦略を許可する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、臨床ガイドラインのような機械学習と人的専門家のポリシーを評価する能力が確認された。
関連論文リスト
- Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Policy-Adaptive Estimator Selection for Off-Policy Evaluation [12.1655494876088]
Off-policy Evaluation (OPE) は、オフラインログデータのみを使用して、カウンターファクトポリシーの性能を正確に評価することを目的としている。
本稿では,OPEにおける推定器選択の課題を初めて考察する。
特に、利用可能なログデータを適切にサブサンプリングし、擬似ポリシーを構築することにより、与えられたOPEタスクに適応する推定子選択を可能にする。
論文 参考訳(メタデータ) (2022-11-25T05:31:42Z) - Towards Robust Off-Policy Evaluation via Human Inputs [34.743072420430416]
オフ・ポリティ・アセスメント(OPE)手法は、医療などの高度な領域における政策を評価するための重要なツールである。
既存のアプローチでは、環境の観測可能な性質を任意に変更できる大規模なシフトに対して考慮されている。
これはしばしば、ユーティリティの非常に悲観的な見積もりをもたらし、デプロイで有用であった可能性のあるポリシーを無効にする。
論文 参考訳(メタデータ) (2022-09-18T23:59:55Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Robust On-Policy Data Collection for Data-Efficient Policy Evaluation [7.745028845389033]
政策評価では、関心のある環境に対する評価政策の期待したリターンを見積もる。
我々は、潜在的に大きなオフラインRLデータセットと組み合わせるために、少量の追加データを収集できる設定を検討します。
この設定では、単に評価ポリシ -- オンラインデータ収集 -- を実行することが、サブ最適であることを示します。
論文 参考訳(メタデータ) (2021-11-29T14:30:26Z) - Evaluating the Robustness of Off-Policy Evaluation [10.760026478889664]
Off-policy Evaluation (OPE)は、オフラインログデータのみを活用する仮説的ポリシーの性能を評価する。
オンラインインタラクションが高利得と高価な設定を含むアプリケーションでは特に有用である。
我々は,OPE推定器のロバスト性を評価する実験手法であるIEOE(Interpretable Evaluation for Offline Evaluation)を開発した。
論文 参考訳(メタデータ) (2021-08-31T09:33:13Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。