論文の概要: Logging Policy Design for Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2605.15108v1
- Date: Thu, 14 May 2026 17:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.980372
- Title: Logging Policy Design for Off-Policy Evaluation
- Title(参考訳): オフライン評価のためのロギングポリシー設計
- Authors: Connor Douglas, Joel Persson, Foster Provost,
- Abstract要約: オフ政治評価(OPE)は、異なるロギングポリシーによって収集されたデータを用いて、対象の処理ポリシーの値を推定する。
対象とするポリシに対して,OPEエラーを最小限に抑えるロギングポリシの設計方法について検討する。
- 参考スコア(独自算出の注目度): 0.509780930114934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy evaluation (OPE) estimates the value of a target treatment policy (e.g., a recommender system) using data collected by a different logging policy. It enables high-stakes experimentation without live deployment, yet in practice accuracy depends heavily on the logging policy used to collect data for computing the estimate. We study how to design logging policies that minimize OPE error for given target policies. We characterize a fundamental reward-coverage tradeoff: concentrating probability mass on high-reward actions reduces variance but risks missing signal on actions the target policy may take. We propose a unifying framework for logging policy design and derive optimal policies in canonical informational regimes where the target policy and reward distribution are (i) known, (ii) unknown, and (iii) partially known through priors or noisy estimates at logging time. Our results provide actionable guidance for firms choosing among multiple candidate recommendation systems. We demonstrate the importance of treatment selection when gathering data for OPE, and describe theoretically optimal approaches when this is a firm's primary objective. We also distill practical design principles for selecting logging policies when operational constraints prevent implementing the theoretical optimum.
- Abstract(参考訳): オフ政治評価(OPE)は、異なるロギングポリシーによって収集されたデータを用いて、対象の処理ポリシー(例えば、レコメンダシステム)の値を推定する。
ライブデプロイメントなしで高いスループットの実験を可能にするが、実際の精度は見積もりを計算するためのデータ収集に使われるロギングポリシーに大きく依存する。
対象とするポリシに対して,OPEエラーを最小限に抑えるロギングポリシの設計方法について検討する。
高いリワード行動における確率質量の集中はばらつきを減少させるが、ターゲット方針が取る可能性のある行動に対する信号の欠如を危険にさらす。
目的とする政策と報奨分布が存在する標準情報体制において、ロギング政策設計のための統一的な枠組みを提案し、最適な政策を導出する。
(i) 知られている。
(二)不明、及び
(三)伐採時の事前又は騒音の推定により部分的に知られていること。
この結果は、複数の候補推薦システムの中から選択した企業に対して実行可能なガイダンスを提供する。
我々は、OPEのデータ収集における治療選択の重要性を示し、これが企業の主要な目的である場合、理論的に最適なアプローチを説明する。
また,運用上の制約が理論的最適化の実施を妨げた場合に,ロギングポリシーを選択するための実用的な設計原則を精査する。
関連論文リスト
- Off-Policy Evaluation for Ranking Policies under Deterministic Logging Policies [17.672063433232196]
オフ・ポリティ・アセスメント(OPE)は、ランキングシステムにおいて重要な実践的問題である。
目標は、異なるログポリシの下で収集されたオフラインデータのみを使用して、新たなランキングポリシのパフォーマンスを見積もることである。
本稿では,この課題に対処するために,ユーザクリック動作の本質性を活かしたClick-based Inverse Propensity Score (CIPS) を提案する。
論文 参考訳(メタデータ) (2026-03-23T02:13:39Z) - Beating the Winner's Curse via Inference-Aware Policy Optimization [26.01488014918074]
一般的なアプローチは、機械学習モデルをトレーニングして反現実的な結果を予測し、予測された客観的価値を最適化するポリシーを選択することである。
提案手法は,政策を下流でどのように評価するかを考慮し,政策最適化を改良する,推論対応政策最適化と呼ばれる新しい戦略を提案する。
論文 参考訳(メタデータ) (2025-10-20T23:28:12Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - SPEED: Experimental Design for Policy Evaluation in Linear
Heteroscedastic Bandits [13.02672341061555]
線形帯域における政策評価のための最適データ収集の問題について検討する。
まず,重み付き最小二乗推定値に対して,重み付き線形帯域設定で最適設計を定式化する。
次に、この定式化を使用して、データ収集中にアクション毎のサンプルの最適な割り当てを導出します。
論文 参考訳(メタデータ) (2023-01-29T04:33:13Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。