論文の概要: $Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies
- arxiv url: http://arxiv.org/abs/2405.10024v2
- Date: Mon, 16 Sep 2024 09:30:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 02:15:45.226213
- Title: $Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies
- Title(参考訳): $Δ\text{-}{\rm OPE}$:Pairs of Policiesによるオフポリティ推定
- Authors: Olivier Jeunen, Aleksei Ustimenko,
- Abstract要約: Inverse Propensity Scoring estimator に基づいた$Deltatext-rm OPE$メソッドを提案する。
シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 13.528097424046823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The off-policy paradigm casts recommendation as a counterfactual decision-making task, allowing practitioners to unbiasedly estimate online metrics using offline data. This leads to effective evaluation metrics, as well as learning procedures that directly optimise online success. Nevertheless, the high variance that comes with unbiasedness is typically the crux that complicates practical applications. An important insight is that the difference between policy values can often be estimated with significantly reduced variance, if said policies have positive covariance. This allows us to formulate a pairwise off-policy estimation task: $\Delta\text{-}{\rm OPE}$. $\Delta\text{-}{\rm OPE}$ subsumes the common use-case of estimating improvements of a learnt policy over a production policy, using data collected by a stochastic logging policy. We introduce $\Delta\text{-}{\rm OPE}$ methods based on the widely used Inverse Propensity Scoring estimator and its extensions. Moreover, we characterise a variance-optimal additive control variate that further enhances efficiency. Simulated, offline, and online experiments show that our methods significantly improve performance for both evaluation and learning tasks.
- Abstract(参考訳): オフ・ポリティクスのパラダイムは、リコメンデーションを反ファクトな意思決定タスクとみなし、実践者はオフラインデータを使用してオンラインメトリクスを不公平に見積もることができる。
これは効果的な評価指標と、オンラインの成功を直接最適化する学習手順につながります。
それにもかかわらず、偏りが伴う高い分散は、通常、実践的な応用を複雑にするくちばしである。
重要な洞察は、政策値の違いが正の共分散を持つ場合、大きな分散を減らして推定されることがしばしばあるということである。
これにより、ペアワイズなオフポリティ推定タスクを定式化できます。
$\Delta\text{-}{\rm OPE}$は、確率的なロギングポリシによって収集されたデータを使用して、プロダクションポリシーに対する学習ポリシーの改善を推定する一般的なユースケースを仮定する。
Inverse Propensity Scoring estimatorとその拡張をベースにした$\Delta\text{-}{\rm OPE}$メソッドを紹介した。
さらに,より効率を向上する分散最適加法制御バリアイトを特徴付ける。
シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Efficient Policy Evaluation with Offline Data Informed Behavior Policy Design [18.326126953667842]
オンラインモンテカルロ推定器のデータ効率を向上させる新しい手法を提案する。
まず,オンラインモンテカルロ推定器のばらつきを確実に低減する閉形式行動ポリシーを提案する。
次に、以前に収集したオフラインデータから、このクローズドフォームの動作ポリシーを学習するための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-31T16:12:31Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Optimal Mixture Weights for Off-Policy Evaluation with Multiple Behavior
Policies [3.855085732184416]
オフ政治評価は、行動ポリシーから収集されたオフラインデータを用いて目標ポリシーを評価する強化学習の鍵となる要素である。
本稿では,異なる行動ポリシーによって生成された推定器を正しく混合する方法について論じる。
シミュレーションリコメンデータシステムの実験から,提案手法は推定平均二乗誤差を低減するのに有効であることが示された。
論文 参考訳(メタデータ) (2020-11-29T12:57:54Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。