論文の概要: Off-Policy Evaluation Using Information Borrowing and Context-Based Switching
- arxiv url: http://arxiv.org/abs/2112.09865v2
- Date: Sun, 18 Aug 2024 05:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 06:51:56.057501
- Title: Off-Policy Evaluation Using Information Borrowing and Context-Based Switching
- Title(参考訳): 情報ボローイングとコンテキストベーススイッチングを用いたオフポリティ評価
- Authors: Sutanoy Dasgupta, Yabo Niu, Kishan Panaganti, Dileep Kalathil, Debdeep Pati, Bani Mallick,
- Abstract要約: 文脈的包帯における非政治的評価問題について考察する。
目標は、ログポリシによって収集されたデータを使用して、ターゲットポリシーの価値を見積もることである。
本稿では,情報借り出しとコンテキストベーススイッチング(DR-IC)推定器を用いたDouubly Robustと呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 10.063289291875247
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We consider the off-policy evaluation (OPE) problem in contextual bandits, where the goal is to estimate the value of a target policy using the data collected by a logging policy. Most popular approaches to the OPE are variants of the doubly robust (DR) estimator obtained by combining a direct method (DM) estimator and a correction term involving the inverse propensity score (IPS). Existing algorithms primarily focus on strategies to reduce the variance of the DR estimator arising from large IPS. We propose a new approach called the Doubly Robust with Information borrowing and Context-based switching (DR-IC) estimator that focuses on reducing both bias and variance. The DR-IC estimator replaces the standard DM estimator with a parametric reward model that borrows information from the 'closer' contexts through a correlation structure that depends on the IPS. The DR-IC estimator also adaptively interpolates between this modified DM estimator and a modified DR estimator based on a context-specific switching rule. We give provable guarantees on the performance of the DR-IC estimator. We also demonstrate the superior performance of the DR-IC estimator compared to the state-of-the-art OPE algorithms on a number of benchmark problems.
- Abstract(参考訳): 我々は,ログポリシによって収集されたデータを用いて,対象政策の価値を推定することを目的とする,文脈的帯域におけるオフ・ポリティィ・アセスメント(OPE)問題を考察する。
OPEに対する最も一般的なアプローチは、直接法(DM)推定器と逆確率スコア(IPS)を含む補正項を組み合わせた二重頑健(DR)推定器の変種である。
既存のアルゴリズムは主に、大きなIPSから生じるDR推定器のばらつきを減らす戦略に重点を置いている。
本稿では,情報を借りるダビリーロバストと,バイアスと分散の両面に着目したコンテキストベーススイッチング(DR-IC)推定器を提案する。
DR-IC推定器は、標準的なDM推定器を、IPSに依存する相関構造を通して「クローザー」コンテキストから情報を借りるパラメトリック報酬モデルに置き換える。
DR-IC推定器は、文脈固有のスイッチングルールに基づいて、この修正DM推定器と修正DR推定器とを適応的に補間する。
DR-IC推定器の性能保証を行う。
また,多くのベンチマーク問題において,最新のOPEアルゴリズムと比較してDR-IC推定器の性能が優れていることを示す。
関連論文リスト
- Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy [11.16777821381608]
本稿では,マルコフ決定プロセスのための新しい二重ロバスト(DR)オフ・ポリティクス (DRUnknown) を導入し,ログポリシと値関数の双方が未知な状況を想定した。
提案した推定器は,まずログポリシを推定し,その評価器の分散を最小化し,ログポリシの効果を考慮し,値関数モデルを推定する。
論文 参考訳(メタデータ) (2024-04-02T10:42:44Z) - Marginal Density Ratio for Off-Policy Evaluation in Contextual Bandits [41.91108406329159]
文脈的包帯におけるオフ・ポリティ・アセスメント(OPE)は、コストのかかる実験をせずに既存のデータを用いて新しいポリシーを評価するために不可欠である。
我々は、文脈的盗賊のための新しいOPE推定器、Marginal Ratio (MR) 推定器を導入する。
論文 参考訳(メタデータ) (2023-12-03T17:04:57Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Off-Policy Risk Assessment in Markov Decision Processes [15.225153671736201]
我々はマルコフ決定過程(MDPs)におけるリターンのCDFのための最初の2倍ロバスト(DR)推定器を開発する。
この推定器は、分散を著しく少なくし、モデルが十分に特定されたとき、クレーマー・ラオ分散の低い境界を達成する。
オフポリチックCDFとリスク推定のための最初のミニマックス下限を導出する。
論文 参考訳(メタデータ) (2022-09-21T15:40:59Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Enhanced Doubly Robust Learning for Debiasing Post-click Conversion Rate
Estimation [29.27760413892272]
クリック後の変換は、ユーザの好みを示す強いシグナルであり、レコメンデーションシステムを構築する上で有益である。
現在、ほとんどの既存の手法は、対実学習を利用してレコメンデーションシステムを破壊している。
本稿では,MRDR推定のための新しい二重学習手法を提案し,誤差計算を一般的なCVR推定に変換する。
論文 参考訳(メタデータ) (2021-05-28T06:59:49Z) - Self-supervised Representation Learning with Relative Predictive Coding [102.93854542031396]
Relative Predictive Coding(RPC)は、新しいコントラスト表現学習目標である。
RPCは、トレーニング安定性、ミニバッチサイズ感度、ダウンストリームタスクパフォーマンスのバランスが良好である。
ベンチマークビジョンと音声自己教師型学習タスクにおけるRPCの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2021-03-21T01:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。