論文の概要: SOPE: Spectrum of Off-Policy Estimators
- arxiv url: http://arxiv.org/abs/2111.03936v1
- Date: Sat, 6 Nov 2021 18:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 16:47:48.559704
- Title: SOPE: Spectrum of Off-Policy Estimators
- Title(参考訳): SOPE:Off-Policy Estimatorのスペクトル
- Authors: Christina J. Yuan, Yash Chandak, Stephen Giguere, Philip S. Thomas,
Scott Niekum
- Abstract要約: 終端がSISとISである推定器のスペクトルの存在を示す。
本研究は、ISとSISの偏りと分散のトレードオフにこのスペクトルの推定器を使用できるという実証的証拠を提供する。
- 参考スコア(独自算出の注目度): 40.15700429288981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many sequential decision making problems are high-stakes and require
off-policy evaluation (OPE) of a new policy using historical data collected
using some other policy. One of the most common OPE techniques that provides
unbiased estimates is trajectory based importance sampling (IS). However, due
to the high variance of trajectory IS estimates, importance sampling methods
based on state-action visitation distributions (SIS) have recently been
adopted. Unfortunately, while SIS often provides lower variance estimates for
long horizons, estimating the state-action distribution ratios can be
challenging and lead to biased estimates. In this paper, we present a new
perspective on this bias-variance trade-off and show the existence of a
spectrum of estimators whose endpoints are SIS and IS. Additionally, we also
establish a spectrum for doubly-robust and weighted version of these
estimators. We provide empirical evidence that estimators in this spectrum can
be used to trade-off between the bias and variance of IS and SIS and can
achieve lower mean-squared error than both IS and SIS.
- Abstract(参考訳): 多くのシーケンシャルな意思決定問題はハイテイクであり、他の政策を用いて収集された歴史的データを用いて新しい政策の非政治的評価(OPE)を必要とする。
偏りのない見積もりを提供する最も一般的なOPE手法の1つは、軌跡に基づく重要サンプリング(IS)である。
しかし, 軌道のばらつきが推定されるため, 近年, 状態行動訪問分布(sis)に基づく重要サンプリング手法が採用されている。
残念なことに、SISはしばしば長い地平線に対して低い分散推定を提供するが、状態-作用分布比を推定することは困難であり、偏りのある推定につながる。
本稿では、このバイアス分散トレードオフに対する新たな視点を示し、終端がSISとISである推定器のスペクトルの存在を示す。
さらに,これらの推定器の二重ロバストおよび重み付けバージョンのスペクトルも確立する。
我々は,isとsisのバイアスと分散のトレードオフとして,このスペクトルの推定器を用いてisとsisよりも低い平均二乗誤差を実現できることを示す。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Scaling Marginalized Importance Sampling to High-Dimensional
State-Spaces via State Abstraction [5.150752343250592]
強化学習(RL)における非政治評価の問題点について考察する。
我々は,高次元状態空間を低次元状態空間に投影することにより,OPE推定器の精度を向上させることを提案する。
論文 参考訳(メタデータ) (2022-12-14T20:07:33Z) - Excess risk analysis for epistemic uncertainty with application to
variational inference [110.4676591819618]
我々は、未知の分布からデータが生成される頻繁なセッティングにおいて、新しいEU分析を提示する。
一般化能力と、予測分布の分散やエントロピーなど、広く使用されているEUの測定値との関係を示す。
本研究では,PAC-ベイジアン理論に基づく予測とEU評価性能を直接制御する新しい変分推論を提案する。
論文 参考訳(メタデータ) (2022-06-02T12:12:24Z) - Off-Policy Evaluation for Large Action Spaces via Embeddings [36.42838320396534]
文脈的包帯におけるオフ政治評価(OPE)は、現実世界のシステムで急速に採用されている。
既存のOPE推定器は、アクションの数が大きいと著しく劣化する。
我々は,アクション埋め込みがアクション空間の構造を提供する際に,余分な重み付けを生かした新しいOPE推定器を提案する。
論文 参考訳(メタデータ) (2022-02-13T14:00:09Z) - State Relevance for Off-Policy Evaluation [29.891687579606277]
我々は, ある状態に関連付けられた確率比を戦略的に省略することにより, ばらつきを低減させる推定器であるOmtting-States-Irrelevant-to-Return Importance Smpling (OSIRIS)を導入する。
我々は、OSIRISが偏りがなく、通常の重要サンプリングよりも分散度が低い条件を定式化する。
論文 参考訳(メタデータ) (2021-09-13T20:40:55Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - The Counterfactual $\chi$-GAN [20.42556178617068]
因果推論は、しばしば、治療の割り当てが結果から独立していることを要求する反ファクト的枠組みに依存する。
本研究は,CGAN(Counterfactual $chi$-GAN)と呼ばれるGAN(Generative Adversarial Network)に基づくモデルを提案する。
論文 参考訳(メタデータ) (2020-01-09T17:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。