論文の概要: OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators
- arxiv url: http://arxiv.org/abs/2405.17708v2
- Date: Thu, 31 Oct 2024 23:40:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:33:45.035172
- Title: OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators
- Title(参考訳): OPERA:複数推定器の再重み付けによるオフラインポリシー自動評価
- Authors: Allen Nie, Yash Chandak, Christina J. Yuan, Anirudhan Badrinath, Yannis Flet-Berliac, Emma Brunskil,
- Abstract要約: オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
- 参考スコア(独自算出の注目度): 13.408838970377035
- License:
- Abstract: Offline policy evaluation (OPE) allows us to evaluate and estimate a new sequential decision-making policy's performance by leveraging historical interaction data collected from other policies. Evaluating a new policy online without a confident estimate of its performance can lead to costly, unsafe, or hazardous outcomes, especially in education and healthcare. Several OPE estimators have been proposed in the last decade, many of which have hyperparameters and require training. Unfortunately, choosing the best OPE algorithm for each task and domain is still unclear. In this paper, we propose a new algorithm that adaptively blends a set of OPE estimators given a dataset without relying on an explicit selection using a statistical procedure. We prove that our estimator is consistent and satisfies several desirable properties for policy evaluation. Additionally, we demonstrate that when compared to alternative approaches, our estimator can be used to select higher-performing policies in healthcare and robotics. Our work contributes to improving ease of use for a general-purpose, estimator-agnostic, off-policy evaluation framework for offline RL.
- Abstract(参考訳): オフライン政策評価(OPE)により、他の政策から収集された過去のインタラクションデータを活用することで、新たなシーケンシャルな意思決定政策のパフォーマンスを評価し、評価することができる。
オンライン上での新たなポリシーの評価は、特に教育や医療において、そのパフォーマンスを自信を持って見積もることなく、費用がかかる、安全でない、あるいは有害な結果をもたらす可能性がある。
過去10年間にいくつかのOPE推定器が提案され、その多くがハイパーパラメータを持ち、訓練を必要とする。
残念ながら、各タスクとドメインに最適なOPEアルゴリズムを選択することは、まだ不明である。
本稿では,統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々は,我々の推定器が一貫したものであり,政策評価に望ましいいくつかの特性を満たすことを証明した。
さらに、代替手法と比較して、我々の推定器は、医療やロボティクスにおけるより高いパフォーマンスのポリシーを選択するのに利用できることを示した。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
関連論文リスト
- AutoOPE: Automated Off-Policy Estimator Selection [7.476028372444458]
オフ・ポリティィ・アセスメントの問題は、相手が収集したデータを用いて、カウンターファクト・ポリシーのパフォーマンスを評価することである。
機械学習に基づく自動データ駆動型OPE推定器選択法を提案する。
論文 参考訳(メタデータ) (2024-06-26T02:34:48Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Data-Driven Off-Policy Estimator Selection: An Application in User
Marketing on An Online Content Delivery Service [11.986224119327387]
医療、マーケティング、レコメンデーションシステムといった分野では、非政治的な評価が不可欠である。
理論的背景を持つ多くのOPE法が提案されている。
特定の用途や目的のために使用すると見積もる実践者にとって、しばしば不明である。
論文 参考訳(メタデータ) (2021-09-17T15:53:53Z) - Evaluating the Robustness of Off-Policy Evaluation [10.760026478889664]
Off-policy Evaluation (OPE)は、オフラインログデータのみを活用する仮説的ポリシーの性能を評価する。
オンラインインタラクションが高利得と高価な設定を含むアプリケーションでは特に有用である。
我々は,OPE推定器のロバスト性を評価する実験手法であるIEOE(Interpretable Evaluation for Offline Evaluation)を開発した。
論文 参考訳(メタデータ) (2021-08-31T09:33:13Z) - Active Offline Policy Selection [19.18251239758809]
本稿では,ログデータの多いドメインにおけるポリシ選択の問題に対処するが,インタラクション予算が非常に制限されている。
ログデータのみを用いてポリシーの価値を評価するために、いくつかのオフ・ポリティクス・アセスメント(OPE)技術が提案されている。
本稿では、ログデータとオンラインインタラクションの制限を組み合わさって、最適なポリシーを識別する、新しい緊急オフラインポリシー選択問題の定式化を導入する。
論文 参考訳(メタデータ) (2021-06-18T17:33:13Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Accountable Off-Policy Evaluation With Kernel Bellman Statistics [29.14119984573459]
我々は,以前の実験から収集した観測データから,新たな政策の評価を行うオフ・ポリティクス評価(OPE)について考察する。
政治外のデータからの情報が少ないため、点推定だけでなく厳密な信頼区間を構築することが望ましい。
我々は,OPEにおける厳密な信頼境界を計算する問題を削減するための新しい変分フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-15T07:24:38Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。