論文の概要: Learning by Repetition: Stochastic Multi-armed Bandits under Priming
Effect
- arxiv url: http://arxiv.org/abs/2006.10356v1
- Date: Thu, 18 Jun 2020 08:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 09:41:29.858662
- Title: Learning by Repetition: Stochastic Multi-armed Bandits under Priming
Effect
- Title(参考訳): 繰り返し学習:プライミング効果下における確率的マルチアームバンド
- Authors: Priyank Agrawal and Theja Tulabandhula
- Abstract要約: マルチアーム・バンディット・セッティングにおけるエンゲージメントの持続性が学習に及ぼす影響について検討した。
時間におけるサブ線形後悔と関連する摩耗/摩耗パラメータを実現する新しいアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 2.5966580648312223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the effect of persistence of engagement on learning in a stochastic
multi-armed bandit setting. In advertising and recommendation systems,
repetition effect includes a wear-in period, where the user's propensity to
reward the platform via a click or purchase depends on how frequently they see
the recommendation in the recent past. It also includes a counteracting
wear-out period, where the user's propensity to respond positively is dampened
if the recommendation was shown too many times recently. Priming effect can be
naturally modelled as a temporal constraint on the strategy space, since the
reward for the current action depends on historical actions taken by the
platform. We provide novel algorithms that achieves sublinear regret in time
and the relevant wear-in/wear-out parameters. The effect of priming on the
regret upper bound is also additive, and we get back a guarantee that matches
popular algorithms such as the UCB1 and Thompson sampling when there is no
priming effect. Our work complements recent work on modeling time varying
rewards, delays and corruptions in bandits, and extends the usage of rich
behavior models in sequential decision making settings.
- Abstract(参考訳): 確率的マルチアームバンディット設定におけるエンゲージメントの持続性が学習に及ぼす影響について検討した。
広告やレコメンデーションシステムでは、ユーザーがクリックまたは購入によってプラットフォームに報酬を与える確率が、最近の過去のレコメンデーションの頻度に依存するという、繰り返しの効力がある。
また、最近の勧告が多すぎると、正に反応するユーザの正当性が低下する反作用の摩耗期間も含む。
プライミング効果は、現在のアクションに対する報酬はプラットフォームが行う歴史的なアクションに依存するため、戦略空間に対する一時的な制約として自然にモデル化することができる。
時間におけるサブ線形後悔と関連する摩耗/摩耗パラメータを実現する新しいアルゴリズムを提供する。
後悔の上界に対するプライミングの効果も加法的であり、プライミング効果がない場合には、UTB1やトンプソンサンプリングのような一般的なアルゴリズムと一致する保証を得る。
我々の研究は、バンディットにおける様々な報酬、遅延、腐敗のモデル化に関する最近の研究を補完し、シーケンシャルな意思決定設定におけるリッチな行動モデルの使用を拡張します。
関連論文リスト
- Last Switch Dependent Bandits with Monotone Payoff Functions [8.860629791560198]
我々は、LSDバンディット計画の近似性、すなわち、最適なアーム推進戦略を演算する(NP-hard)問題を理解するための一歩を踏み出した。
特に、この問題に対する最初の効率的な定数近似アルゴリズムを設計し、自然単調性仮定の下では、その近似が最先端にほぼ一致することを示す。
われわれは,新しい高次元緩和法や仮想状態の進化を反映する技術など,このような問題に対する新たなツールと洞察を開発する。
論文 参考訳(メタデータ) (2023-06-01T04:38:32Z) - TransAct: Transformer-based Realtime User Action Model for
Recommendation at Pinterest [17.247452803197362]
本稿では、PinterestのHomefeedランキングアーキテクチャについて述べる。
本研究では,リアルタイム活動からユーザの短期的嗜好を抽出するシーケンシャルモデルであるTransActを提案する。
本稿では, アブレーション研究の結果, 生産時の課題, オンラインA/B実験の結果について述べる。
論文 参考訳(メタデータ) (2023-05-31T23:45:29Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Reward Imputation with Sketching for Contextual Batched Bandits [48.80803376405073]
コンテキストバッチバンドイット(Contextual batched bandit、CBB)は、各エピソードの最後に環境から報酬のバッチを観測する設定である。
CBBの既存のアプローチは、実行されていないアクションの報酬を無視し、フィードバック情報の未利用につながることが多い。
本研究では,未観測の報酬をスケッチを用いて完遂するSketched Policy Updating with Imputed Rewards (SPUIR)を提案する。
論文 参考訳(メタデータ) (2022-10-13T04:26:06Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。
この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。
本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T15:56:59Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z) - Rebounding Bandits for Modeling Satiation Effects [22.92512152419544]
リバウンダリング・バンディット(rebounding bandit)は、時間不変線形力学系として飽和力学をモデル化するマルチアーム・バンディット・セットアップである。
我々は、腕が同一のダイナミクスを示す場合に、欲求政策が最適であることを示す計画問題を特徴づける。
論文 参考訳(メタデータ) (2020-11-13T03:17:29Z) - Effects of Model Misspecification on Bayesian Bandits: Case Studies in
UX Optimization [8.704145252476705]
我々は、新しい定式化を、保存されていない共同創設者とオプションの停止を伴う、安静な睡眠バンディットとして提示する。
ケーススタディは、一般的な不特定が最適以下の報酬につながることを示している。
また、レスレスバンディットにおける結合を利用した最初のモデルを示し、有限の後悔と高速で一貫した停止が可能であることを示した。
論文 参考訳(メタデータ) (2020-10-07T14:34:28Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。