論文の概要: Clustering Context in Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2502.21304v1
- Date: Fri, 28 Feb 2025 18:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:44:25.240558
- Title: Clustering Context in Off-Policy Evaluation
- Title(参考訳): オフポリティ評価におけるクラスタリングコンテキスト
- Authors: Daniel Guzman-Olivares, Philipp Schmidt, Jacek Golebiowski, Artur Bekasov,
- Abstract要約: オフ政治評価は、ログ化されたデータを活用して、eコマース、検索エンジン、メディアストリーミングサービス、医療における新しいポリシーの有効性を見積もることができる。
IPSのようなベースラインオフポリティクス推定器の性能は、ロギングポリシーと評価ポリシーとが著しく異なるときに低下する。
近年の研究では、同様の行動にまたがって情報を共有し、この問題を軽減することが提案されている。
- 参考スコア(独自算出の注目度): 1.2024554708901514
- License:
- Abstract: Off-policy evaluation can leverage logged data to estimate the effectiveness of new policies in e-commerce, search engines, media streaming services, or automatic diagnostic tools in healthcare. However, the performance of baseline off-policy estimators like IPS deteriorates when the logging policy significantly differs from the evaluation policy. Recent work proposes sharing information across similar actions to mitigate this problem. In this work, we propose an alternative estimator that shares information across similar contexts using clustering. We study the theoretical properties of the proposed estimator, characterizing its bias and variance under different conditions. We also compare the performance of the proposed estimator and existing approaches in various synthetic problems, as well as a real-world recommendation dataset. Our experimental results confirm that clustering contexts improves estimation accuracy, especially in deficient information settings.
- Abstract(参考訳): オフ政治評価は、ログ化されたデータを利用して、電子商取引、検索エンジン、メディアストリーミングサービス、医療における自動診断ツールにおける新しいポリシーの有効性を見積もることができる。
しかし,ロギングポリシと評価ポリシが著しく異なる場合,IPSなどのベースラインオフポリティクス推定器の性能は低下する。
近年の研究では、同様の行動にまたがって情報を共有し、この問題を軽減することが提案されている。
本研究では、クラスタリングを用いて、類似したコンテキスト間で情報を共有できる代替推定器を提案する。
提案した推定器の理論的特性について検討し,そのバイアスと異なる条件下での分散を特徴付ける。
また,提案した推定器の性能と,様々な合成問題に対する既存手法,および実世界のレコメンデーションデータセットを比較した。
実験結果から,クラスタリングのコンテキストによって推定精度が向上することが確認された。
関連論文リスト
- Automated Off-Policy Estimator Selection via Supervised Learning [7.476028372444458]
オフ・ポリティ・アセスメント(OPE)問題(Off-Policy Evaluation)は、相手が収集したデータを用いて、対実的なポリシーの性能を評価することである。
OPEの問題を解決するために,我々は,ロギングポリシに代えて配置された場合の対策策が持つパフォーマンスを,最も正確な方法で推定することを目的とした推定器を利用する。
教師付き学習に基づく自動データ駆動型OPE推定器選択法を提案する。
論文 参考訳(メタデータ) (2024-06-26T02:34:48Z) - OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Offline Policy Comparison with Confidence: Benchmarks and Baselines [28.775565917880915]
OPC with Confidence (OPCC) のベンチマークを作成し、オフラインの強化学習からデータセットにポリシー比較クエリのセットを追加する。
また,モデルベースラインのクラスに対するリスク対カバレッジトレードオフの実証評価を行った。
論文 参考訳(メタデータ) (2022-05-22T04:28:25Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Performance Evaluation of Adversarial Attacks: Discrepancies and
Solutions [51.8695223602729]
機械学習モデルの堅牢性に挑戦するために、敵対攻撃方法が開発されました。
本稿では,Piece-wise Sampling Curving(PSC)ツールキットを提案する。
psc toolkitは計算コストと評価効率のバランスをとるオプションを提供する。
論文 参考訳(メタデータ) (2021-04-22T14:36:51Z) - Off-Policy Evaluation and Learning for External Validity under a
Covariate Shift [32.37842308026544]
我々は,異なる政策から得られた履歴データを用いて,評価データに対する新たなポリシーの評価と訓練を検討する。
オフ政治評価(OPE)の目標は、評価データに対する新しい政策の期待報酬を推定することであり、オフ政治学習(OPL)の目標は、評価データに対する期待報酬を最大化する新しい政策を見つけることである。
論文 参考訳(メタデータ) (2020-02-26T17:18:43Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。