論文の概要: Towards Robust Off-Policy Evaluation via Human Inputs
- arxiv url: http://arxiv.org/abs/2209.08682v1
- Date: Sun, 18 Sep 2022 23:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 16:32:48.995082
- Title: Towards Robust Off-Policy Evaluation via Human Inputs
- Title(参考訳): 人間入力によるロバストなオフポリティ評価に向けて
- Authors: Harvineet Singh, Shalmali Joshi, Finale Doshi-Velez, Himabindu
Lakkaraju
- Abstract要約: オフ・ポリティ・アセスメント(OPE)手法は、医療などの高度な領域における政策を評価するための重要なツールである。
既存のアプローチでは、環境の観測可能な性質を任意に変更できる大規模なシフトに対して考慮されている。
これはしばしば、ユーティリティの非常に悲観的な見積もりをもたらし、デプロイで有用であった可能性のあるポリシーを無効にする。
- 参考スコア(独自算出の注目度): 34.743072420430416
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Off-policy Evaluation (OPE) methods are crucial tools for evaluating policies
in high-stakes domains such as healthcare, where direct deployment is often
infeasible, unethical, or expensive. When deployment environments are expected
to undergo changes (that is, dataset shifts), it is important for OPE methods
to perform robust evaluation of the policies amidst such changes. Existing
approaches consider robustness against a large class of shifts that can
arbitrarily change any observable property of the environment. This often
results in highly pessimistic estimates of the utilities, thereby invalidating
policies that might have been useful in deployment. In this work, we address
the aforementioned problem by investigating how domain knowledge can help
provide more realistic estimates of the utilities of policies. We leverage
human inputs on which aspects of the environments may plausibly change, and
adapt the OPE methods to only consider shifts on these aspects. Specifically,
we propose a novel framework, Robust OPE (ROPE), which considers shifts on a
subset of covariates in the data based on user inputs, and estimates worst-case
utility under these shifts. We then develop computationally efficient
algorithms for OPE that are robust to the aforementioned shifts for contextual
bandits and Markov decision processes. We also theoretically analyze the sample
complexity of these algorithms. Extensive experimentation with synthetic and
real world datasets from the healthcare domain demonstrates that our approach
not only captures realistic dataset shifts accurately, but also results in less
pessimistic policy evaluations.
- Abstract(参考訳): オフ・ポリティ・アセスメント(OPE)手法は、直接配置がしばしば不可能、非倫理的、あるいは高価である医療などの高額な領域でポリシーを評価するための重要なツールである。
デプロイメント環境が変更される(すなわちデータセットシフト)と期待されている場合、OPEメソッドはそのような変更の中でポリシーを堅牢に評価することが重要である。
既存のアプローチでは、環境の観測可能な性質を任意に変更できる大規模なシフトに対して堅牢性を考慮する。
これはしばしば、ユーティリティの非常に悲観的な見積もりをもたらし、配置に有用であったであろうポリシーを無効にする。
本稿では、ドメイン知識がポリシーの効用をより現実的な評価にどのように役立つかを調査することで、上記の問題に対処します。
環境のどの側面が変更可能かという人間の入力を活用し、これらの側面へのシフトのみを考慮に入れたope法を適用する。
具体的には,ユーザの入力に基づいてデータ内の共変量のサブセットへのシフトを考慮し,これらのシフトの下で最悪のユースケースを推定する,新しいフレームワークであるロバスト ope (rope)を提案する。
次に,前述した文脈的バンディットとマルコフ決定過程のシフトに頑健な計算効率の高いアルゴリズムを開発した。
また,これらのアルゴリズムのサンプル複雑性を理論的に解析する。
医療領域からの合成データと実世界のデータセットの広範な実験は、このアプローチが現実的なデータセットのシフトを正確に捉えるだけでなく、悲観的なポリシー評価を低下させることを示している。
関連論文リスト
- Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences [24.361550505778155]
オフコマース評価(OPE)は、医薬品やe-policy-policyなどの分野に広く適用されている。
本稿では,いくつかの重要な構造的仮定を緩和する因果的深層化フレームワークを提案する。
PI仮定をOPEに組み込んだ新しいアルゴリズムを提案し,その理論的基礎を徹底的に検証する。
論文 参考訳(メタデータ) (2024-07-25T10:02:11Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective [64.73162159837956]
ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、機械学習と人間の専門家ポリシーの両方を評価する能力が確認された。
論文 参考訳(メタデータ) (2023-11-23T17:13:37Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。