論文の概要: Optimal Mixture Weights for Off-Policy Evaluation with Multiple Behavior
Policies
- arxiv url: http://arxiv.org/abs/2011.14359v1
- Date: Sun, 29 Nov 2020 12:57:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 08:59:38.431019
- Title: Optimal Mixture Weights for Off-Policy Evaluation with Multiple Behavior
Policies
- Title(参考訳): 複数行動ポリシーを用いたオフポリシィ評価のための最適混合重量
- Authors: Jinlin Lai, Lixin Zou, Jiaxing Song
- Abstract要約: オフ政治評価は、行動ポリシーから収集されたオフラインデータを用いて目標ポリシーを評価する強化学習の鍵となる要素である。
本稿では,異なる行動ポリシーによって生成された推定器を正しく混合する方法について論じる。
シミュレーションリコメンデータシステムの実験から,提案手法は推定平均二乗誤差を低減するのに有効であることが示された。
- 参考スコア(独自算出の注目度): 3.855085732184416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation is a key component of reinforcement learning which
evaluates a target policy with offline data collected from behavior policies.
It is a crucial step towards safe reinforcement learning and has been used in
advertisement, recommender systems and many other applications. In these
applications, sometimes the offline data is collected from multiple behavior
policies. Previous works regard data from different behavior policies equally.
Nevertheless, some behavior policies are better at producing good estimators
while others are not. This paper starts with discussing how to correctly mix
estimators produced by different behavior policies. We propose three ways to
reduce the variance of the mixture estimator when all sub-estimators are
unbiased or asymptotically unbiased. Furthermore, experiments on simulated
recommender systems show that our methods are effective in reducing the
Mean-Square Error of estimation.
- Abstract(参考訳): オフポリシー評価は、行動ポリシーから収集したオフラインデータを用いてターゲットポリシーを評価する強化学習の重要な要素である。
安全強化学習への重要なステップであり、広告やレコメンデーションシステムなど、多くのアプリケーションで使用されている。
これらのアプリケーションでは、オフラインデータは複数の行動ポリシーから収集されることがある。
以前の研究では、異なる行動ポリシーからのデータを等しく扱う。
それでも、いくつかの行動方針は優れた推定器を作り出すのに優れているが、他の政策はそうではない。
本稿では,行動ポリシーの異なる推定器を正しく混合する方法について論じる。
我々は,すべてのサブ推定器が偏りのない場合や漸近的に偏りのない場合,混合推定器の分散を減少させる3つの方法を提案する。
さらに,シミュレーションリコメンデータシステムを用いた実験により,提案手法は推定平均二乗誤差の低減に有効であることが示された。
関連論文リスト
- $Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies [13.528097424046823]
Inverse Propensity Scoring estimator に基づいた$Deltatext-rm OPE$メソッドを提案する。
シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-05-16T12:04:55Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Multi-Objective Recommendation via Multivariate Policy Learning [10.494676556696213]
現実世界のレコメンデーションシステムは、ユーザに提示するレコメンデーションを決定する際に、複数の目的のバランスを取る必要があることが多い。
これには行動信号(クリック、共有、居住時間など)や、より広い目的(多様性、公平性など)が含まれる。
論文 参考訳(メタデータ) (2024-05-03T14:44:04Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Efficient Policy Evaluation with Offline Data Informed Behavior Policy Design [18.326126953667842]
オンラインモンテカルロ推定器のデータ効率を向上させる新しい手法を提案する。
まず,オンラインモンテカルロ推定器のばらつきを確実に低減する閉形式行動ポリシーを提案する。
次に、以前に収集したオフラインデータから、このクローズドフォームの動作ポリシーを学習するための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-31T16:12:31Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Case-based off-policy policy evaluation using prototype learning [8.550140109387467]
プロトタイプ学習を用いた非政治政策評価のための行動ポリシーの推定について提案する。
本稿では,プロトタイプが目標と行動方針の相違点を要約する方法について述べる。
また、ターゲットポリシーのどの部分が見積もりに最も影響しているかをよりよく理解するために、プロトタイプの観点から推定値についても記述する。
論文 参考訳(メタデータ) (2021-11-22T11:03:45Z) - Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-10-28T04:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。