論文の概要: Meta Off-Policy Estimation
- arxiv url: http://arxiv.org/abs/2508.07914v1
- Date: Mon, 11 Aug 2025 12:31:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.089681
- Title: Meta Off-Policy Estimation
- Title(参考訳): Meta Off-Policy Estimation
- Authors: Olivier Jeunen,
- Abstract要約: Off-policy Estimation (OPE) は、レコメンダシステムの非バイアスのオフライン評価を可能にする手法である。
我々は、OPE推定器のセットとその関連する信頼区間を1つのより正確な推定に組み合わせるために、別の視点を取る。
本手法を実世界のシミュレーションデータと実世界のデータの両方で検証し,既存の個人推定値に対する統計的効率の向上を実証した。
- 参考スコア(独自算出の注目度): 3.988614978933934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy estimation (OPE) methods enable unbiased offline evaluation of recommender systems, directly estimating the online reward some target policy would have obtained, from offline data and with statistical guarantees. The theoretical elegance of the framework combined with practical successes have led to a surge of interest, with many competing estimators now available to practitioners and researchers. Among these, Doubly Robust methods provide a prominent strategy to combine value- and policy-based estimators. In this work, we take an alternative perspective to combine a set of OPE estimators and their associated confidence intervals into a single, more accurate estimate. Our approach leverages a correlated fixed-effects meta-analysis framework, explicitly accounting for dependencies among estimators that arise due to shared data. This yields a best linear unbiased estimate (BLUE) of the target policy's value, along with an appropriately conservative confidence interval that reflects inter-estimator correlation. We validate our method on both simulated and real-world data, demonstrating improved statistical efficiency over existing individual estimators.
- Abstract(参考訳): オフ政治推定(OPE)手法は、オフラインデータや統計的保証から得られるオンライン報酬を直接見積もる、非バイアスのオフラインでレコメンダシステムの評価を可能にする。
このフレームワークの理論的エレガンスと実践的な成功が組み合わさって関心が高まり、多くの競合する推定者が実践者や研究者に利用できるようになった。
これらのうち、Douubly Robustメソッドは、価値とポリシーに基づく推定器を組み合わせるための顕著な戦略を提供する。
本研究では,OPE推定器の集合と関連する信頼区間を1つのより正確な推定値にまとめるために,別の視点をとる。
提案手法では,共有データに起因した推定者間の依存関係を明示的に考慮し,相関した固定効果メタ分析フレームワークを活用する。
これにより、目標ポリシの値の最良の線形非バイアス推定(BLUE)と、推定子間相関を反映した適切に保守的な信頼区間が得られる。
本手法は実世界のシミュレーションデータと実世界データの両方で検証し,既存の個人推定値に対する統計的効率の向上を実証した。
関連論文リスト
- Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Distributional Off-Policy Evaluation for Slate Recommendations [19.22972996548473]
本研究では,スレートの非政治的性能分布を推定する手法を提案する。
本研究では,実世界のデータから構築したスレートレコメンデーションシミュレータ上で,人工データおよび人工データに対する本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-08-27T17:58:32Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。