論文の概要: State Relevance for Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2109.06310v1
- Date: Mon, 13 Sep 2021 20:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:49:10.540259
- Title: State Relevance for Off-Policy Evaluation
- Title(参考訳): オフポリシー評価における国家の関連性
- Authors: Simon P. Shen, Yecheng Jason Ma, Omer Gottesman, Finale Doshi-Velez
- Abstract要約: 我々は, ある状態に関連付けられた確率比を戦略的に省略することにより, ばらつきを低減させる推定器であるOmtting-States-Irrelevant-to-Return Importance Smpling (OSIRIS)を導入する。
我々は、OSIRISが偏りがなく、通常の重要サンプリングよりも分散度が低い条件を定式化する。
- 参考スコア(独自算出の注目度): 29.891687579606277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Importance sampling-based estimators for off-policy evaluation (OPE) are
valued for their simplicity, unbiasedness, and reliance on relatively few
assumptions. However, the variance of these estimators is often high,
especially when trajectories are of different lengths. In this work, we
introduce Omitting-States-Irrelevant-to-Return Importance Sampling (OSIRIS), an
estimator which reduces variance by strategically omitting likelihood ratios
associated with certain states. We formalize the conditions under which OSIRIS
is unbiased and has lower variance than ordinary importance sampling, and we
demonstrate these properties empirically.
- Abstract(参考訳): 政治外評価(OPE)に対する重要度サンプリングに基づく推定器は、その単純さ、不偏性、そして比較的少数の仮定に依存している。
しかし、特に軌道長が異なる場合には、これらの推定値のばらつきがしばしば高い。
本研究では,特定の状態に関連する確率比を戦略的に省略することで分散を減少させる推定器であるosirisを導入する。
我々は、OSIRISが偏りがなく、通常の重要サンプリングよりも分散が低い条件を定式化し、これらの特性を実証的に示す。
関連論文リスト
- Marginal Density Ratio for Off-Policy Evaluation in Contextual Bandits [41.91108406329159]
文脈的包帯におけるオフ・ポリティ・アセスメント(OPE)は、コストのかかる実験をせずに既存のデータを用いて新しいポリシーを評価するために不可欠である。
我々は、文脈的盗賊のための新しいOPE推定器、Marginal Ratio (MR) 推定器を導入する。
論文 参考訳(メタデータ) (2023-12-03T17:04:57Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Low Variance Off-policy Evaluation with State-based Importance Sampling [21.727827944373793]
本稿では, 重みの計算から特定の状態を取り除き, ばらつきを低減できる状態ベース重要度サンプリング推定器を提案する。
4つの領域の実験により、状態ベースの手法は、従来の手法に比べて、ばらつきの低減と精度の向上を一貫して達成していることが示された。
論文 参考訳(メタデータ) (2022-12-07T19:56:11Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - The role of the geometric mean in case-control studies [4.38301148531795]
結果依存サンプリングにおいて、幾何オッズ比を部分的に同定し、推定し、推測する方法を述べる。
提案した推定器は効率的な影響関数に基づいており、したがって2つの頑健な特性を持つ。
論文 参考訳(メタデータ) (2022-07-19T01:42:52Z) - Off-Policy Evaluation for Large Action Spaces via Embeddings [36.42838320396534]
文脈的包帯におけるオフ政治評価(OPE)は、現実世界のシステムで急速に採用されている。
既存のOPE推定器は、アクションの数が大きいと著しく劣化する。
我々は,アクション埋め込みがアクション空間の構造を提供する際に,余分な重み付けを生かした新しいOPE推定器を提案する。
論文 参考訳(メタデータ) (2022-02-13T14:00:09Z) - SOPE: Spectrum of Off-Policy Estimators [40.15700429288981]
終端がSISとISである推定器のスペクトルの存在を示す。
本研究は、ISとSISの偏りと分散のトレードオフにこのスペクトルの推定器を使用できるという実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-11-06T18:29:21Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。