論文の概要: Non-Stationary Latent Bandits
- arxiv url: http://arxiv.org/abs/2012.00386v1
- Date: Tue, 1 Dec 2020 10:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 20:07:32.220143
- Title: Non-Stationary Latent Bandits
- Title(参考訳): 非定常ラテントバンド
- Authors: Joey Hong, Branislav Kveton, Manzil Zaheer, Yinlam Chow, Amr Ahmed,
Mohammad Ghavamzadeh, Craig Boutilier
- Abstract要約: 非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
- 参考スコア(独自算出の注目度): 68.21614490603758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Users of recommender systems often behave in a non-stationary fashion, due to
their evolving preferences and tastes over time. In this work, we propose a
practical approach for fast personalization to non-stationary users. The key
idea is to frame this problem as a latent bandit, where the prototypical models
of user behavior are learned offline and the latent state of the user is
inferred online from its interactions with the models. We call this problem a
non-stationary latent bandit. We propose Thompson sampling algorithms for
regret minimization in non-stationary latent bandits, analyze them, and
evaluate them on a real-world dataset. The main strength of our approach is
that it can be combined with rich offline-learned models, which can be
misspecified, and are subsequently fine-tuned online using posterior sampling.
In this way, we naturally combine the strengths of offline and online learning.
- Abstract(参考訳): 推奨システムのユーザは、時間とともに好みや好みが変化するため、非定常的な振る舞いをすることが多い。
本研究では,非定常ユーザに対する高速パーソナライゼーションのための実践的アプローチを提案する。
鍵となるアイデアは、この問題を潜在バンディットとして、ユーザ行動のプロトタイプモデルがオフラインで学習され、潜在状態がモデルとのインタラクションからオンラインに推論される、というものである。
我々はこの問題を非定常潜伏バンディットと呼んでいる。
我々は,非定常潜在バンディットにおける後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
提案手法の主な強みは,オフライン学習モデルと組み合わせることが可能であることだ。
このようにして、オフラインとオンライン学習の強みを自然に組み合わせます。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Online Bandit Learning with Offline Preference Data [15.799929216215672]
ノイズの多い選好フィードバックを持つオフラインデータセットでウォームスタートできるオンライン学習のための後部サンプリングアルゴリズムを提案する。
生成したエキスパートの“コンピテンス”をモデル化することで、そのようなデータセットを最も効果的に利用できることを示します。
論文 参考訳(メタデータ) (2024-06-13T20:25:52Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Online Matching: A Real-time Bandit System for Large-scale
Recommendations [23.954049092470548]
Online Matchingは、ユーザのアイテムに対する直接的なフィードバックをリアルタイムで学習する、スケーラブルなクローズドループバンディットシステムである。
Diag-LinUCBはLinUCBアルゴリズムの新たな拡張であり、スケーラブルでタイムリーな方法で帯域幅パラメータの分散更新を可能にする。
論文 参考訳(メタデータ) (2023-07-29T05:46:27Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - Adaptive Endpointing with Deep Contextual Multi-armed Bandits [30.13188582607401]
オンライン環境における発話レベルの音声特徴を最適に設定するための効率的な手法を提案する。
提案手法では,アノテートラベルを必要とせず,アノテートラベルを必要とせず,報奨信号からのオンライン学習のみを用いる。
論文 参考訳(メタデータ) (2023-03-23T16:28:26Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z) - Modeling Online Behavior in Recommender Systems: The Importance of
Temporal Context [30.894950420437926]
推薦システムの性能を評価するときの時間的文脈の省略が、いかに誤った自信をもたらすかを示す。
既存のモデルに時間的文脈をさらに埋め込むためのトレーニング手順を提案する。
その結果、時間的目標を含めれば、リコール@20を最大20%改善できることがわかった。
論文 参考訳(メタデータ) (2020-09-19T19:36:43Z) - Deep Bayesian Bandits: Exploring in Online Personalized Recommendations [4.845576821204241]
我々は、表示広告レコメンデータを文脈的盗賊として定式化する。
クリックスルーレートの後部分布からのサンプリングを必要とする探索手法を実装した。
提案したディープベイズ帯域幅アルゴリズムをオフラインシミュレーションとオンラインAB設定で検証した。
論文 参考訳(メタデータ) (2020-08-03T08:58:18Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。