論文の概要: Marginal Density Ratio for Off-Policy Evaluation in Contextual Bandits
- arxiv url: http://arxiv.org/abs/2312.01457v1
- Date: Sun, 3 Dec 2023 17:04:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:22:49.330902
- Title: Marginal Density Ratio for Off-Policy Evaluation in Contextual Bandits
- Title(参考訳): コンテキストバンディットにおけるオフポリシー評価のための辺縁密度比
- Authors: Muhammad Faaiz Taufiq, Arnaud Doucet, Rob Cornish, Jean-Francois Ton
- Abstract要約: 文脈的包帯におけるオフ・ポリティ・アセスメント(OPE)は、コストのかかる実験をせずに既存のデータを用いて新しいポリシーを評価するために不可欠である。
我々は、文脈的盗賊のための新しいOPE推定器、Marginal Ratio (MR) 推定器を導入する。
- 参考スコア(独自算出の注目度): 41.91108406329159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-Policy Evaluation (OPE) in contextual bandits is crucial for assessing
new policies using existing data without costly experimentation. However,
current OPE methods, such as Inverse Probability Weighting (IPW) and Doubly
Robust (DR) estimators, suffer from high variance, particularly in cases of low
overlap between target and behavior policies or large action and context
spaces. In this paper, we introduce a new OPE estimator for contextual bandits,
the Marginal Ratio (MR) estimator, which focuses on the shift in the marginal
distribution of outcomes $Y$ instead of the policies themselves. Through
rigorous theoretical analysis, we demonstrate the benefits of the MR estimator
compared to conventional methods like IPW and DR in terms of variance
reduction. Additionally, we establish a connection between the MR estimator and
the state-of-the-art Marginalized Inverse Propensity Score (MIPS) estimator,
proving that MR achieves lower variance among a generalized family of MIPS
estimators. We further illustrate the utility of the MR estimator in causal
inference settings, where it exhibits enhanced performance in estimating
Average Treatment Effects (ATE). Our experiments on synthetic and real-world
datasets corroborate our theoretical findings and highlight the practical
advantages of the MR estimator in OPE for contextual bandits.
- Abstract(参考訳): 文脈的包帯におけるオフ・ポリティ・アセスメント(OPE)は、コストのかかる実験をせずに既存のデータを用いて新しいポリシーを評価するために不可欠である。
しかし、現在のOPE手法であるIPW(Inverse Probability Weighting)やDouubly Robust(DR)推定器(Douubly Robust)は、特にターゲットと行動ポリシーの重複が低い場合や大きなアクションとコンテキスト空間において、高い分散に悩まされている。
本稿では,文脈的包帯に対する新たなOPE推定器であるMarginal Ratio (MR) 推定器を紹介する。
厳密な理論解析により, 分散低減の観点から, 従来のipw法やdr法と比較してmr推定器の利点を示す。
さらに、MR推定器と最先端のMarginalized Inverse Propensity Score(MIPS)推定器との接続を確立し、MRがMIPS推定器の一般化されたファミリー間で低い分散を達成することを証明した。
さらに, 因果推論設定におけるmr推定器の有用性を解説し, 平均治療効果(ate)の推定における性能の向上を示す。
人工および実世界のデータセットに関する実験は、我々の理論的知見を裏付け、OPEにおけるMR推定器の実用的利点を強調した。
関連論文リスト
- Doubly Robust Estimator for Off-Policy Evaluation with Large Action
Spaces [0.951828574518325]
大規模行動空間を持つ文脈的帯域設定におけるオフ・ポリティ・アセスメントについて検討する。
ベンチマーク評価者は 厳しい偏見と ばらつきのトレードオフに苦しむ
本稿では,これらの制約を克服するために,Marginalized Doubly Robust (MDR) 推定器を提案する。
論文 参考訳(メタデータ) (2023-08-07T10:00:07Z) - Off-Policy Evaluation for Large Action Spaces via Conjunct Effect
Modeling [30.835774920236872]
大規模離散行動空間に対する文脈的帯域ポリシーの非政治的評価について検討する。
共役効果モデル (CEM) に基づく新しい推定器であるOffCEMを提案し, 因果効果をクラスター効果に分解し, 残留効果を示す。
実験により、OFCEMは特に多くのアクションが存在する場合、OPEを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-05-14T04:16:40Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Off-Policy Risk Assessment in Markov Decision Processes [15.225153671736201]
我々はマルコフ決定過程(MDPs)におけるリターンのCDFのための最初の2倍ロバスト(DR)推定器を開発する。
この推定器は、分散を著しく少なくし、モデルが十分に特定されたとき、クレーマー・ラオ分散の低い境界を達成する。
オフポリチックCDFとリスク推定のための最初のミニマックス下限を導出する。
論文 参考訳(メタデータ) (2022-09-21T15:40:59Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Off-Policy Evaluation Using Information Borrowing and Context-Based Switching [10.063289291875247]
文脈的包帯における非政治的評価問題について考察する。
目標は、ログポリシによって収集されたデータを使用して、ターゲットポリシーの価値を見積もることである。
本稿では,情報借り出しとコンテキストベーススイッチング(DR-IC)推定器を用いたDouubly Robustと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-18T07:38:24Z) - Tight Mutual Information Estimation With Contrastive Fenchel-Legendre
Optimization [69.07420650261649]
我々はFLOと呼ばれる新しい,シンプルで強力なコントラストMI推定器を提案する。
実証的に、我々のFLO推定器は前者の限界を克服し、より効率的に学習する。
FLOの有効性は、広範囲なベンチマークを用いて検証され、実際のMI推定におけるトレードオフも明らかにされる。
論文 参考訳(メタデータ) (2021-07-02T15:20:41Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。