論文の概要: Exploration, Exploitation, and Engagement in Multi-Armed Bandits with
Abandonment
- arxiv url: http://arxiv.org/abs/2205.13566v1
- Date: Thu, 26 May 2022 18:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 14:53:04.065201
- Title: Exploration, Exploitation, and Engagement in Multi-Armed Bandits with
Abandonment
- Title(参考訳): 放棄を伴う多腕バンディットの探索・搾取・関与
- Authors: Zixian Yang, Xin Liu, Lei Ying
- Abstract要約: ALEKSのような新しいオンライン教育プラットフォームや、TikTokやYouTube Shortsのような新しいビデオレコメンデーションシステムでは、ユーザーがアプリに費やす時間は推奨コンテンツのエンゲージメントによって異なる。
我々は,「A」が放棄を表す「MAB-A」と呼ばれる新しいモデルを提案し,その放棄確率は,現在の推奨項目とユーザの過去の経験に依存する。
- 参考スコア(独自算出の注目度): 12.2632894803286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-armed bandit (MAB) is a classic model for understanding the
exploration-exploitation trade-off. The traditional MAB model for
recommendation systems assumes the user stays in the system for the entire
learning horizon. In new online education platforms such as ALEKS or new video
recommendation systems such as TikTok and YouTube Shorts, the amount of time a
user spends on the app depends on how engaging the recommended contents are.
Users may temporarily leave the system if the recommended items cannot engage
the users. To understand the exploration, exploitation, and engagement in these
systems, we propose a new model, called MAB-A where "A" stands for abandonment
and the abandonment probability depends on the current recommended item and the
user's past experience (called state). We propose two algorithms, ULCB and
KL-ULCB, both of which do more exploration (being optimistic) when the user
likes the previous recommended item and less exploration (being pessimistic)
when the user does not like the previous item. We prove that both ULCB and
KL-ULCB achieve logarithmic regret, $O(\log K)$, where $K$ is the number of
visits (or episodes). Furthermore, the regret bound under KL-ULCB is
asymptotically sharp. We also extend the proposed algorithms to the
general-state setting. Simulation results confirm our theoretical analysis and
show that the proposed algorithms have significantly lower regrets than the
traditional UCB and KL-UCB, and Q-learning-based algorithms.
- Abstract(参考訳): マルチアームド・バンディット(mab)は、探査と探査のトレードオフを理解するための古典的なモデルである。
レコメンデーションシステムのための従来のmabモデルは、ユーザが学習の地平線全体にわたってシステムに留まることを前提としている。
ALEKSのような新しいオンライン教育プラットフォームや、TikTokやYouTube Shortsのような新しいビデオレコメンデーションシステムでは、ユーザーがアプリに費やす時間は推奨コンテンツのエンゲージメントによって異なる。
推奨アイテムがユーザを関与できなければ、ユーザは一時的にシステムを離れることができます。
これらのシステムにおける探索, 搾取, エンゲージメントを理解するため, 我々はMAB-Aと呼ばれる新しいモデルを提案し, ここでは「A」は放棄を表すものであり, 放棄確率は現在の推奨項目とユーザの過去の経験(状態)に依存する。
提案手法は,ユーザが推奨項目を好んだ場合の探索(楽観的)と,ユーザが前項目を好まなかった場合の探索(悲観的)の2つのアルゴリズム,ULCBとKL-ULCBを提案する。
ULCBとKL-ULCBの両方が対数的後悔,$O(\log K)$,$K$は訪問数(エピソード数)であることを示す。
さらに、KL-ULCBの下での後悔は漸近的に鋭い。
また,提案アルゴリズムを一般状態設定に拡張する。
シミュレーションの結果,提案アルゴリズムは従来の UCB や KL-UCB やQ-ラーニングに基づくアルゴリズムに比べて有意に低誤差であることがわかった。
関連論文リスト
- The Nah Bandit: Modeling User Non-compliance in Recommendation Systems [2.421459418045937]
Expert with Clustering(EWC)は、推奨オプションと推奨されないオプションの両方からのフィードバックを取り入れた階層的なアプローチで、ユーザの好み学習を加速する。
EWCは教師付き学習と伝統的な文脈的バンディットアプローチの両方を上回ります。
この研究は、より効果的なレコメンデーションシステムのための堅牢なフレームワークを提供する、Nah Banditにおける将来の研究の基礎を築いた。
論文 参考訳(メタデータ) (2024-08-15T03:01:02Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Modeling Attrition in Recommender Systems with Departing Bandits [84.85560764274399]
政策に依存した地平線を捉えた新しいマルチアームバンディット構成を提案する。
まず、全てのユーザが同じタイプを共有しているケースに対処し、最近の UCB ベースのアルゴリズムが最適であることを実証する。
次に、ユーザが2つのタイプに分けられる、より困難なケースを前進させます。
論文 参考訳(メタデータ) (2022-03-25T02:30:54Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - PURS: Personalized Unexpected Recommender System for Improving User
Satisfaction [76.98616102965023]
本稿では、予期せぬことを推奨プロセスに組み込んだ、新しいPersonalized Unexpected Recommender System(PURS)モデルについて述べる。
3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが最先端のベースラインアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-06-05T01:33:21Z) - Measuring Recommender System Effects with Simulated Users [19.09065424910035]
人気バイアスとフィルターバブルは、最もよく研究されているシステムバイアスの2つです。
各種ユーザ行動下におけるレコメンダーシステムの影響を測定するためのシミュレーションフレームワークを提供します。
論文 参考訳(メタデータ) (2021-01-12T14:51:11Z) - Regret in Online Recommendation Systems [73.58127515175127]
本稿では,オンライン環境におけるレコメンデーションシステムの理論的分析について提案する。
各ラウンドにおいて、ユーザがランダムに$m$ユーザから選択され、レコメンデーションが要求される。決定者は、ユーザを観察し、$n$アイテムのカタログからアイテムを選択する。
推奨アルゴリズムのパフォーマンスは、これらの可能性を認識したOracleアルゴリズムを参照して、その後悔を通じて取得される。
論文 参考訳(メタデータ) (2020-10-23T12:48:35Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z) - Deep Bayesian Bandits: Exploring in Online Personalized Recommendations [4.845576821204241]
我々は、表示広告レコメンデータを文脈的盗賊として定式化する。
クリックスルーレートの後部分布からのサンプリングを必要とする探索手法を実装した。
提案したディープベイズ帯域幅アルゴリズムをオフラインシミュレーションとオンラインAB設定で検証した。
論文 参考訳(メタデータ) (2020-08-03T08:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。