論文の概要: Evaluating the Robustness of Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2108.13703v1
- Date: Tue, 31 Aug 2021 09:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 22:59:39.953272
- Title: Evaluating the Robustness of Off-Policy Evaluation
- Title(参考訳): オフポリシー評価のロバスト性評価
- Authors: Yuta Saito, Takuma Udagawa, Haruka Kiyohara, Kazuki Mogi, Yusuke
Narita, and Kei Tateno
- Abstract要約: Off-policy Evaluation (OPE)は、オフラインログデータのみを活用する仮説的ポリシーの性能を評価する。
オンラインインタラクションが高利得と高価な設定を含むアプリケーションでは特に有用である。
我々は,OPE推定器のロバスト性を評価する実験手法であるIEOE(Interpretable Evaluation for Offline Evaluation)を開発した。
- 参考スコア(独自算出の注目度): 10.760026478889664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy Evaluation (OPE), or offline evaluation in general, evaluates the
performance of hypothetical policies leveraging only offline log data. It is
particularly useful in applications where the online interaction involves high
stakes and expensive setting such as precision medicine and recommender
systems. Since many OPE estimators have been proposed and some of them have
hyperparameters to be tuned, there is an emerging challenge for practitioners
to select and tune OPE estimators for their specific application.
Unfortunately, identifying a reliable estimator from results reported in
research papers is often difficult because the current experimental procedure
evaluates and compares the estimators' performance on a narrow set of
hyperparameters and evaluation policies. Therefore, it is difficult to know
which estimator is safe and reliable to use. In this work, we develop
Interpretable Evaluation for Offline Evaluation (IEOE), an experimental
procedure to evaluate OPE estimators' robustness to changes in hyperparameters
and/or evaluation policies in an interpretable manner. Then, using the IEOE
procedure, we perform extensive evaluation of a wide variety of existing
estimators on Open Bandit Dataset, a large-scale public real-world dataset for
OPE. We demonstrate that our procedure can evaluate the estimators' robustness
to the hyperparamter choice, helping us avoid using unsafe estimators. Finally,
we apply IEOE to real-world e-commerce platform data and demonstrate how to use
our protocol in practice.
- Abstract(参考訳): off-policy evaluation(ope、オフライン評価)は、オフラインログデータのみを利用する仮説的なポリシーのパフォーマンスを評価する。
オンラインインタラクションが高利息と、精密医療やレコメンダシステムのような高価な設定を伴うアプリケーションで特に有用である。
多くのOPE推定器が提案され、そのうちのいくつかは調整すべきハイパーパラメータを持つため、実践者が特定の用途のためにOPE推定器を選択して調整することが課題となっている。
残念なことに、研究論文で報告された結果から信頼できる推定器を特定することは、現在の実験手順が、狭い超パラメータと評価ポリシーで推定器の性能を評価し比較するため、しばしば困難である。
したがって,どの推定器が安全で信頼性が高いかを知ることは困難である。
本研究では,OPE推定器の高パラメータ変化に対する頑健性および/または評価ポリシーを解釈可能な方法で評価する実験手法であるIEOE(Interpretable Evaluation for Offline Evaluation)を開発した。
そして、IEOEの手順を用いて、OPEの大規模公開実世界のデータセットであるOpen Bandit Dataset上で、様々な既存推定器の広範な評価を行う。
我々は,超パラメータ選択に対する推定器のロバスト性を評価し,安全でない推定器の使用を回避できることを実証する。
最後に、実世界のeコマースプラットフォームデータにIEOEを適用し、実際にプロトコルを使う方法を実証する。
関連論文リスト
- Automated Off-Policy Estimator Selection via Supervised Learning [7.476028372444458]
オフ・ポリティ・アセスメント(OPE)問題(Off-Policy Evaluation)は、相手が収集したデータを用いて、対実的なポリシーの性能を評価することである。
OPEの問題を解決するために,我々は,ロギングポリシに代えて配置された場合の対策策が持つパフォーマンスを,最も正確な方法で推定することを目的とした推定器を利用する。
教師付き学習に基づく自動データ駆動型OPE推定器選択法を提案する。
論文 参考訳(メタデータ) (2024-06-26T02:34:48Z) - OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It [20.312864152544954]
我々は,HPOのサロゲート目的として一般化性能の非バイアス推定器を鼻で適用すると,予期せぬ故障が生じることを示した。
本稿では,上記の課題を同時に扱うために,一般的なHPO手順に対する単純で効率的な補正法を提案する。
論文 参考訳(メタデータ) (2024-04-23T14:34:16Z) - When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective [64.73162159837956]
ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、機械学習と人間の専門家ポリシーの両方を評価する能力が確認された。
論文 参考訳(メタデータ) (2023-11-23T17:13:37Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Policy-Adaptive Estimator Selection for Off-Policy Evaluation [12.1655494876088]
Off-policy Evaluation (OPE) は、オフラインログデータのみを使用して、カウンターファクトポリシーの性能を正確に評価することを目的としている。
本稿では,OPEにおける推定器選択の課題を初めて考察する。
特に、利用可能なログデータを適切にサブサンプリングし、擬似ポリシーを構築することにより、与えられたOPEタスクに適応する推定子選択を可能にする。
論文 参考訳(メタデータ) (2022-11-25T05:31:42Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Data-Driven Off-Policy Estimator Selection: An Application in User
Marketing on An Online Content Delivery Service [11.986224119327387]
医療、マーケティング、レコメンデーションシステムといった分野では、非政治的な評価が不可欠である。
理論的背景を持つ多くのOPE法が提案されている。
特定の用途や目的のために使用すると見積もる実践者にとって、しばしば不明である。
論文 参考訳(メタデータ) (2021-09-17T15:53:53Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。