論文の概要: Learning by Repetition: Stochastic Multi-armed Bandits under Priming
Effect
- arxiv url: http://arxiv.org/abs/2006.10356v1
- Date: Thu, 18 Jun 2020 08:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 09:41:29.858662
- Title: Learning by Repetition: Stochastic Multi-armed Bandits under Priming
Effect
- Title(参考訳): 繰り返し学習:プライミング効果下における確率的マルチアームバンド
- Authors: Priyank Agrawal and Theja Tulabandhula
- Abstract要約: マルチアーム・バンディット・セッティングにおけるエンゲージメントの持続性が学習に及ぼす影響について検討した。
時間におけるサブ線形後悔と関連する摩耗/摩耗パラメータを実現する新しいアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 2.5966580648312223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the effect of persistence of engagement on learning in a stochastic
multi-armed bandit setting. In advertising and recommendation systems,
repetition effect includes a wear-in period, where the user's propensity to
reward the platform via a click or purchase depends on how frequently they see
the recommendation in the recent past. It also includes a counteracting
wear-out period, where the user's propensity to respond positively is dampened
if the recommendation was shown too many times recently. Priming effect can be
naturally modelled as a temporal constraint on the strategy space, since the
reward for the current action depends on historical actions taken by the
platform. We provide novel algorithms that achieves sublinear regret in time
and the relevant wear-in/wear-out parameters. The effect of priming on the
regret upper bound is also additive, and we get back a guarantee that matches
popular algorithms such as the UCB1 and Thompson sampling when there is no
priming effect. Our work complements recent work on modeling time varying
rewards, delays and corruptions in bandits, and extends the usage of rich
behavior models in sequential decision making settings.
- Abstract(参考訳): 確率的マルチアームバンディット設定におけるエンゲージメントの持続性が学習に及ぼす影響について検討した。
広告やレコメンデーションシステムでは、ユーザーがクリックまたは購入によってプラットフォームに報酬を与える確率が、最近の過去のレコメンデーションの頻度に依存するという、繰り返しの効力がある。
また、最近の勧告が多すぎると、正に反応するユーザの正当性が低下する反作用の摩耗期間も含む。
プライミング効果は、現在のアクションに対する報酬はプラットフォームが行う歴史的なアクションに依存するため、戦略空間に対する一時的な制約として自然にモデル化することができる。
時間におけるサブ線形後悔と関連する摩耗/摩耗パラメータを実現する新しいアルゴリズムを提供する。
後悔の上界に対するプライミングの効果も加法的であり、プライミング効果がない場合には、UTB1やトンプソンサンプリングのような一般的なアルゴリズムと一致する保証を得る。
我々の研究は、バンディットにおける様々な報酬、遅延、腐敗のモデル化に関する最近の研究を補完し、シーケンシャルな意思決定設定におけるリッチな行動モデルの使用を拡張します。
関連論文リスト
- Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications [17.865143559133994]
ハーディングエフェクト」は、ユーザのフィードバックを歴史的評価に偏り、文脈的包帯に固有の偏りのないフィードバックの仮定を分解する。
本報告では, 群れ効果によるフィードバックバイアスに対処するために, 文脈的包帯の新たな変種を考案する。
TS-Confは,遺伝効果の負の影響を効果的に軽減し,学習の高速化と推奨精度の向上を図った。
論文 参考訳(メタデータ) (2024-08-26T17:20:34Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Sparsity-Agnostic Linear Bandits with Adaptive Adversaries [19.84322270472381]
本研究では,各ラウンドにおいて,学習者が要素を選択して報酬を得る一連の行動(特徴ベクトル)を受信する線形帯域について検討する。
期待される報酬は、選択されたアクションの固定だが未知の線形関数である。
線形報酬関数の非ゼロ係数数$S$に依存するスパース後悔境界について検討する。
論文 参考訳(メタデータ) (2024-06-03T10:54:58Z) - Last Switch Dependent Bandits with Monotone Payoff Functions [8.860629791560198]
我々は、LSDバンディット計画の近似性、すなわち、最適なアーム推進戦略を演算する(NP-hard)問題を理解するための一歩を踏み出した。
特に、この問題に対する最初の効率的な定数近似アルゴリズムを設計し、自然単調性仮定の下では、その近似が最先端にほぼ一致することを示す。
われわれは,新しい高次元緩和法や仮想状態の進化を反映する技術など,このような問題に対する新たなツールと洞察を開発する。
論文 参考訳(メタデータ) (2023-06-01T04:38:32Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Reward Imputation with Sketching for Contextual Batched Bandits [48.80803376405073]
コンテキストバッチバンドイット(Contextual batched bandit、CBB)は、各エピソードの最後に環境から報酬のバッチを観測する設定である。
CBBの既存のアプローチは、実行されていないアクションの報酬を無視し、フィードバック情報の未利用につながることが多い。
本研究では,未観測の報酬をスケッチを用いて完遂するSketched Policy Updating with Imputed Rewards (SPUIR)を提案する。
論文 参考訳(メタデータ) (2022-10-13T04:26:06Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。
この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。
本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T15:56:59Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z) - Rebounding Bandits for Modeling Satiation Effects [22.92512152419544]
リバウンダリング・バンディット(rebounding bandit)は、時間不変線形力学系として飽和力学をモデル化するマルチアーム・バンディット・セットアップである。
我々は、腕が同一のダイナミクスを示す場合に、欲求政策が最適であることを示す計画問題を特徴づける。
論文 参考訳(メタデータ) (2020-11-13T03:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。