論文の概要: Doubly Robust Estimator for Off-Policy Evaluation with Large Action
Spaces
- arxiv url: http://arxiv.org/abs/2308.03443v2
- Date: Wed, 9 Aug 2023 10:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 10:51:54.774167
- Title: Doubly Robust Estimator for Off-Policy Evaluation with Large Action
Spaces
- Title(参考訳): 大規模行動空間を用いたオフポリティ評価のための二重ロバスト推定器
- Authors: Tatsuhiro Shimizu, Laura Forastiere
- Abstract要約: 大規模行動空間を持つコンテキスト的帯域設定におけるOff-Policy Evaluation(OPE)について検討する。
ベンチマーク評価者は 厳しい偏見と ばらつきのトレードオフに苦しむ
動作の埋め込みによる推定器のばらつきを軽減するために,MIPS(Marginalized Inverse Propensity Scoring)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study Off-Policy Evaluation (OPE) in contextual bandit settings with large
action spaces. The benchmark estimators suffer from severe bias and variance
tradeoffs. Parametric approaches suffer from bias due to difficulty specifying
the correct model, whereas ones with importance weight suffer from variance. To
overcome these limitations, Marginalized Inverse Propensity Scoring (MIPS) was
proposed to mitigate the estimator's variance via embeddings of an action. To
make the estimator more accurate, we propose the doubly robust estimator of
MIPS called the Marginalized Doubly Robust (MDR) estimator. Theoretical
analysis shows that the proposed estimator is unbiased under weaker assumptions
than MIPS while maintaining variance reduction against IPS, which was the main
advantage of MIPS. The empirical experiment verifies the supremacy of MDR
against existing estimators.
- Abstract(参考訳): 大規模行動空間を持つコンテキスト的帯域設定におけるオフ・ポリティ・アセスメント(OPE)について検討する。
ベンチマーク評価者は厳しいバイアスと分散トレードオフに苦しむ。
パラメトリックアプローチは正しいモデルを特定するのが難しいためバイアスに悩まされるが、重みのあるアプローチはばらつきに悩まされる。
これらの制限を克服するため、推定器の分散を緩和するためにMarginalized Inverse Propensity Scoring (MIPS) が提案された。
推定器をより正確にするために,mprの2重ロバストな推定器であるmarginalized doubly robust (mdr) estimatorを提案する。
理論的解析により,提案した推定器はMIPSよりも弱い仮定の下では偏りがなく,IPSに対する分散低減は維持されている。
実証実験は、既存の推定値に対するMDRの優位性を検証する。
関連論文リスト
- Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Marginal Density Ratio for Off-Policy Evaluation in Contextual Bandits [41.91108406329159]
文脈的包帯におけるオフ・ポリティ・アセスメント(OPE)は、コストのかかる実験をせずに既存のデータを用いて新しいポリシーを評価するために不可欠である。
我々は、文脈的盗賊のための新しいOPE推定器、Marginal Ratio (MR) 推定器を導入する。
論文 参考訳(メタデータ) (2023-12-03T17:04:57Z) - Off-Policy Evaluation for Large Action Spaces via Conjunct Effect
Modeling [30.835774920236872]
大規模離散行動空間に対する文脈的帯域ポリシーの非政治的評価について検討する。
共役効果モデル (CEM) に基づく新しい推定器であるOffCEMを提案し, 因果効果をクラスター効果に分解し, 残留効果を示す。
実験により、OFCEMは特に多くのアクションが存在する場合、OPEを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-05-14T04:16:40Z) - Off-Policy Risk Assessment in Markov Decision Processes [15.225153671736201]
我々はマルコフ決定過程(MDPs)におけるリターンのCDFのための最初の2倍ロバスト(DR)推定器を開発する。
この推定器は、分散を著しく少なくし、モデルが十分に特定されたとき、クレーマー・ラオ分散の低い境界を達成する。
オフポリチックCDFとリスク推定のための最初のミニマックス下限を導出する。
論文 参考訳(メタデータ) (2022-09-21T15:40:59Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Off-Policy Evaluation for Large Action Spaces via Embeddings [36.42838320396534]
文脈的包帯におけるオフ政治評価(OPE)は、現実世界のシステムで急速に採用されている。
既存のOPE推定器は、アクションの数が大きいと著しく劣化する。
我々は,アクション埋め込みがアクション空間の構造を提供する際に,余分な重み付けを生かした新しいOPE推定器を提案する。
論文 参考訳(メタデータ) (2022-02-13T14:00:09Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Tight Mutual Information Estimation With Contrastive Fenchel-Legendre
Optimization [69.07420650261649]
我々はFLOと呼ばれる新しい,シンプルで強力なコントラストMI推定器を提案する。
実証的に、我々のFLO推定器は前者の限界を克服し、より効率的に学習する。
FLOの有効性は、広範囲なベンチマークを用いて検証され、実際のMI推定におけるトレードオフも明らかにされる。
論文 参考訳(メタデータ) (2021-07-02T15:20:41Z) - Enhanced Doubly Robust Learning for Debiasing Post-click Conversion Rate
Estimation [29.27760413892272]
クリック後の変換は、ユーザの好みを示す強いシグナルであり、レコメンデーションシステムを構築する上で有益である。
現在、ほとんどの既存の手法は、対実学習を利用してレコメンデーションシステムを破壊している。
本稿では,MRDR推定のための新しい二重学習手法を提案し,誤差計算を一般的なCVR推定に変換する。
論文 参考訳(メタデータ) (2021-05-28T06:59:49Z) - Nonparametric Estimation of the Fisher Information and Its Applications [82.00720226775964]
本稿では,大きさn$のランダムサンプルからフィッシャー情報の位置推定の問題について考察する。
Bhattacharyaにより提案された推定器を再検討し、収束率の向上を導出する。
クリッピング推定器と呼ばれる新しい推定器を提案する。
論文 参考訳(メタデータ) (2020-05-07T17:21:56Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。