論文の概要: Safe Exploration for Optimizing Contextual Bandits
- arxiv url: http://arxiv.org/abs/2002.00467v1
- Date: Sun, 2 Feb 2020 19:18:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 20:22:18.383349
- Title: Safe Exploration for Optimizing Contextual Bandits
- Title(参考訳): コンテキスト帯域最適化のための安全な探索
- Authors: Rolf Jagerman and Ilya Markov and Maarten de Rijke
- Abstract要約: 安全探索アルゴリズム(SEA)による文脈的帯域幅問題に対する新しい学習手法を提案する。
SEAは、ベースライン(または生産)ランキングシステム(つまりポリシー)を使用することから始まる。
SEAは、カウンターファクトラーニングを使用して、ベースラインポリシーの振る舞いに基づいた新しいポリシーを学習する。
- 参考スコア(独自算出の注目度): 58.22688545687366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual bandit problems are a natural fit for many information retrieval
tasks, such as learning to rank, text classification, recommendation, etc.
However, existing learning methods for contextual bandit problems have one of
two drawbacks: they either do not explore the space of all possible document
rankings (i.e., actions) and, thus, may miss the optimal ranking, or they
present suboptimal rankings to a user and, thus, may harm the user experience.
We introduce a new learning method for contextual bandit problems, Safe
Exploration Algorithm (SEA), which overcomes the above drawbacks. SEA starts by
using a baseline (or production) ranking system (i.e., policy), which does not
harm the user experience and, thus, is safe to execute, but has suboptimal
performance and, thus, needs to be improved. Then SEA uses counterfactual
learning to learn a new policy based on the behavior of the baseline policy.
SEA also uses high-confidence off-policy evaluation to estimate the performance
of the newly learned policy. Once the performance of the newly learned policy
is at least as good as the performance of the baseline policy, SEA starts using
the new policy to execute new actions, allowing it to actively explore
favorable regions of the action space. This way, SEA never performs worse than
the baseline policy and, thus, does not harm the user experience, while still
exploring the action space and, thus, being able to find an optimal policy. Our
experiments using text classification and document retrieval confirm the above
by comparing SEA (and a boundless variant called BSEA) to online and offline
learning methods for contextual bandit problems.
- Abstract(参考訳): 文脈的バンディット問題は、ランク付けの学習、テキスト分類、レコメンデーションなど、多くの情報検索タスクに自然に適合する。
しかし、既存の学習手法では、可能なすべてのドキュメントランキング(例えばアクション)の空間を探索しないか、最適なランキングを逃すか、ユーザに対して最適以下のランキングを提示するか、ユーザエクスペリエンスを損なう可能性があるという2つの欠点の1つである。
本稿では,上記の欠点を克服した,コンテキストバンディット問題の新たな学習法であるsafe exploration algorithm(sea)を提案する。
seaはまず、ベースライン(あるいは製品)ランキングシステム(すなわちポリシ)を使用することから始まり、ユーザエクスペリエンスを損なうことなく、実行が安全だが、最適ではないパフォーマンスを持つため、改善が必要となる。
次にseaは、反事実学習を使用して、ベースラインポリシーの振る舞いに基づいた新しいポリシーを学ぶ。
SEAはまた、新たに学習した政策のパフォーマンスを見積もるために、高信頼の非政治評価を使用する。
新しく学んだポリシーのパフォーマンスが少なくともベースラインポリシーのパフォーマンスに匹敵するものになると、seaは新しいアクションを実行するために新しいポリシーを使い始め、アクションスペースの望ましい領域を積極的に探索することができる。
このように、SEAはベースラインポリシーよりもパフォーマンスが悪くないため、ユーザエクスペリエンスを損なうことなく、アクションスペースを探索し、したがって最適なポリシーを見つけることができます。
テキスト分類と文書検索を用いた実験では,sea (およびbseaと呼ばれる境界のない派生型) と,コンテキストバンディット問題に対するオンラインおよびオフライン学習手法を比較した。
関連論文リスト
- Exploration of Unranked Items in Safe Online Learning to Re-Rank [1.5446362182482503]
オンライン学習における課題のランク付けのためのバンドアルゴリズムは、ユーザのフィードバックを利用して長期的な収益を最大化することを目的としている。
現実的な観点から見れば、このようなアルゴリズムは攻撃的な探索によってユーザー体験を傷つけるリスクが高い。
安全な探索の1つのアプローチは、許容できる品質をすでに保証しているオリジナルランキングの品質を徐々に向上させることである。
論文 参考訳(メタデータ) (2023-05-02T04:39:31Z) - Local Policy Improvement for Recommender Systems [8.617221361305901]
我々は、以前デプロイされたポリシーから収集されたデータをもとに、新しいポリシーをトレーニングする方法を示す。
我々は,地方政策改善の代替策として,非政治的是正を伴わないアプローチを提案する。
この局所的な政策改善パラダイムはレコメンデーションシステムに理想的であり、以前の方針は一般的に適切な品質であり、ポリシーは頻繁に更新される。
論文 参考訳(メタデータ) (2022-12-22T00:47:40Z) - Two-Stage Neural Contextual Bandits for Personalised News Recommendation [50.3750507789989]
既存のパーソナライズされたニュースレコメンデーション手法は、ユーザの興味を搾取することに集中し、レコメンデーションにおける探索を無視する。
我々は、エクスプロイトと探索のトレードオフに対処する文脈的包括的レコメンデーション戦略に基づいて構築する。
我々はユーザとニュースにディープラーニング表現を使用し、ニューラルアッパー信頼境界(UCB)ポリシーを一般化し、加法的 UCB と双線形 UCB を一般化する。
論文 参考訳(メタデータ) (2022-06-26T12:07:56Z) - Meta Policy Learning for Cold-Start Conversational Recommendation [71.13044166814186]
メタ強化学習を用いて冷間開始ユーザを対象としたCRSポリシー学習について検討する。
政策適応を容易にするために,3つの相乗成分を設計する。
論文 参考訳(メタデータ) (2022-05-24T05:06:52Z) - Combining Online Learning and Offline Learning for Contextual Bandits
with Deficient Support [53.11601029040302]
現在のオフライン政治学習アルゴリズムは、主に逆確率スコア(IPS)重み付けに基づいている。
オフライン学習とオンライン探索を組み合わせた新しい手法を提案する。
提案手法は,最小限のオンライン探索数を用いて理論的保証を伴う最適政策を決定する。
論文 参考訳(メタデータ) (2021-07-24T05:07:43Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z) - Lane-Merging Using Policy-based Reinforcement Learning and
Post-Optimization [0.0]
政策に基づく強化学習と局所最適化を組み合わせることで,2つの方法論のベストプラクティスを育成,合成する。
車両数の異なる車線変更シナリオを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-06T12:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。