論文の概要: Pessimistic Off-Policy Optimization for Learning to Rank
- arxiv url: http://arxiv.org/abs/2206.02593v1
- Date: Mon, 6 Jun 2022 12:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 15:28:17.670480
- Title: Pessimistic Off-Policy Optimization for Learning to Rank
- Title(参考訳): ランク付け学習のための悲観的オフポリティ最適化
- Authors: Matej Cief, Branislav Kveton and Michal Kompan
- Abstract要約: オフ政治学習は、ポリシーをデプロイせずに最適化するためのフレームワークである。
レコメンデーションシステムでは、ログデータの不均衡のため、これは特に難しい。
我々は、ランク付け学習のための悲観的非政治最適化について研究する。
- 参考スコア(独自算出の注目度): 9.197878514042227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy learning is a framework for optimizing policies without deploying
them, using data collected by another policy. In recommender systems, this is
especially challenging due to the imbalance in logged data: some items are
recommended and thus logged much more frequently than others. This is further
perpetuated when recommending a list of items, as the action space is
combinatorial. To address this challenge, we study pessimistic off-policy
optimization for learning to rank. The key idea is to compute lower confidence
bounds on parameters of click models and then return the list with the highest
pessimistic estimate of its value. This approach is computationally efficient
and we analyze it. We study its Bayesian and frequentist variants, and overcome
the limitation of unknown prior by incorporating empirical Bayes. To show the
empirical effectiveness of our approach, we compare it to off-policy optimizers
that use inverse propensity scores or neglect uncertainty. Our approach
outperforms all baselines, is robust, and is also general.
- Abstract(参考訳): オフポリシー学習は、他のポリシによって収集されたデータを使用して、デプロイせずにポリシーを最適化するためのフレームワークである。
特にレコメンデーションシステムでは、ログデータの不均衡のため、いくつかの項目が推奨され、その結果、他の項目よりもずっと頻繁にログされる。
これは、アクション空間が組合せであるので、アイテムのリストを推奨するときにさらに持続する。
この課題に対処するために,我々はランク付けへの学習のための悲観的オフポリシー最適化について研究する。
鍵となる考え方は、クリックモデルのパラメータの低い信頼境界を計算し、その値を最も悲観的な見積もりでリストを返すことである。
このアプローチは計算効率が良く、分析します。
我々は,そのベイズ的かつ頻繁な変種を研究し,経験的ベイズを組み込むことで未知の限界を克服した。
本手法の実証的有効性を示すために,逆傾向スコアや不確実性を無視するオフ・ポリティカル・オプティマイザと比較する。
私たちのアプローチは、すべてのベースラインよりも優れ、堅牢で、一般的です。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Policy learning "without'' overlap: Pessimism and generalized empirical
Bernstein's inequality [107.84979976896912]
オフライン政策学習は、収集された優先順位を利用して、最適な個別化決定ルールを学ぶことを目的としている。
既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットにおいて低い境界となる。
本稿では,政策値の点推定ではなく,低信頼境界(LCB)を最適化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning
Approach [6.7826352751791985]
本稿では,オフライン環境における最適動的処理系のための,悲観的に基づく新しいベイズ学習法を提案する。
我々は悲観主義の原理をトンプソンサンプリングとベイズ機械学習と統合し、悲観主義の度合いを最適化する。
本研究では,高効率かつスケーラブルな変分推論に基づく計算アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-26T02:14:10Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Robust Policy Search for Robot Navigation with Stochastic Meta-Policies [5.7871177330714145]
本研究では,ベイズ最適化の主成分を生かして,ポリシー探索アルゴリズムの様々な問題に対して堅牢性を提供する。
いくつかの手法を組み合わせて、それらの相互作用が部品の和よりもどのように機能するかを示す。
提案アルゴリズムを,ロボットアームによるオブジェクトのプッシュやローバーによる経路探索など,いくつかの最適化ベンチマークやロボットタスクにおいて,以前の結果と比較した。
論文 参考訳(メタデータ) (2020-03-02T16:30:59Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。