論文の概要: Modeling Attrition in Recommender Systems with Departing Bandits
- arxiv url: http://arxiv.org/abs/2203.13423v1
- Date: Fri, 25 Mar 2022 02:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:08:52.315439
- Title: Modeling Attrition in Recommender Systems with Departing Bandits
- Title(参考訳): 出発するバンディットを持つレコメンダシステムにおけるアトリビューションのモデル化
- Authors: Omer Ben-Porat, Lee Cohen, Liu Leqi, Zachary C. Lipton, Yishay Mansour
- Abstract要約: 政策に依存した地平線を捉えた新しいマルチアームバンディット構成を提案する。
まず、全てのユーザが同じタイプを共有しているケースに対処し、最近の UCB ベースのアルゴリズムが最適であることを実証する。
次に、ユーザが2つのタイプに分けられる、より困難なケースを前進させます。
- 参考スコア(独自算出の注目度): 62.88292133122237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditionally, when recommender systems are formalized as multi-armed
bandits, the policy of the recommender system influences the rewards accrued,
but not the length of interaction. However, in real-world systems, dissatisfied
users may depart (and never come back). In this work, we propose a novel
multi-armed bandit setup that captures such policy-dependent horizons. Our
setup consists of a finite set of user types, and multiple arms with Bernoulli
payoffs. Each (user type, arm) tuple corresponds to an (unknown) reward
probability. Each user's type is initially unknown and can only be inferred
through their response to recommendations. Moreover, if a user is dissatisfied
with their recommendation, they might depart the system. We first address the
case where all users share the same type, demonstrating that a recent UCB-based
algorithm is optimal. We then move forward to the more challenging case, where
users are divided among two types. While naive approaches cannot handle this
setting, we provide an efficient learning algorithm that achieves
$\tilde{O}(\sqrt{T})$ regret, where $T$ is the number of users.
- Abstract(参考訳): 伝統的に、レコメンダシステムがマルチアームのバンディットとして形式化された場合、レコメンダシステムのポリシーは報酬に影響を与えるが、インタラクションの長さには影響しない。
しかし、現実世界のシステムでは、不満を抱いたユーザーは立ち去る(二度と戻らない)。
本稿では,このような政策依存の地平線を捉えた,新しいマルチアームバンディット設定を提案する。
私たちのセットアップは、ユーザタイプの有限セットと、Bernoulliのペイオフを備えた複数のアームで構成されています。
各タプル(ユーザータイプ、アーム)は(未知の)報酬確率に対応する。
各ユーザのタイプは最初は不明で、レコメンデーションへの応答を通じてのみ推測できる。
さらに、ユーザの推奨に不満がある場合は、システムを離れる可能性がある。
まず、全てのユーザが同じタイプを共有し、最近の UCB ベースのアルゴリズムが最適であることを示す。
次に、ユーザが2つのタイプに分けられる、より困難なケースに進みます。
ナイーブなアプローチでは、この設定を処理できないが、$T$がユーザ数である場合に、$\tilde{O}(\sqrt{T})$ regretを達成する効率的な学習アルゴリズムを提供する。
関連論文リスト
- Eliciting User Preferences for Personalized Multi-Objective Decision
Making through Comparative Feedback [76.7007545844273]
目的に対して異なるユーザの好みに対応する多目的意思決定フレームワークを提案する。
我々のモデルは、ベクトル値の報酬関数を持つマルコフ決定プロセスで構成され、各ユーザが未知の選好ベクトルを持つ。
少数の比較クエリを用いて,ユーザに対してほぼ最適なポリシを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T23:58:19Z) - Congested Bandits: Optimal Routing via Short-term Resets [30.892724364965]
本研究では,過去の演奏回数に応じて各腕の報奨が許される「混雑バンド」の問題について検討する。
UCBスタイルのアルゴリズムを提案し、そのポリシーの後悔は$tildeO(sqrtK Delta T)$であることを示す。
線形コンテキスト的帯域設定では,最小二乗プランナを反復的に用いたアルゴリズムが,ポリシー後悔の$tildeO(sqrtdT + Delta)$を達成している。
論文 参考訳(メタデータ) (2023-01-23T03:11:06Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Coordinated Attacks against Contextual Bandits: Fundamental Limits and
Defense Mechanisms [75.17357040707347]
オンラインレコメンデーションシステムによってモチベーションされた我々は,文脈的包帯における最適政策の発見問題を提案する。
目標は、優れたユーザに対する報酬を可能な限り少ないユーザインタラクションで最大化するポリシーを、しっかりと学習することだ。
効率的なロバストな平均推定器を用いることで、$tildeO(min(S,A)cdot alpha/epsilon2)$ upper-boundを実現できることを示す。
論文 参考訳(メタデータ) (2022-01-30T01:45:13Z) - Learning the Optimal Recommendation from Explorative Users [38.332330484187395]
本研究では,レコメンデータシステムとユーザ間の逐次的インタラクションについて検討する。
効率的なシステム学習は依然として可能であるが、より困難であることを示す。
論文 参考訳(メタデータ) (2021-10-06T21:01:18Z) - BanditMF: Multi-Armed Bandit Based Matrix Factorization Recommender
System [0.0]
マルチアーム・バンディット(MAB)は、探索と搾取のバランスをとるために原則化されたオンライン学習アプローチを提供する。
協調フィルタリング(CF)は、おそらく推奨システムにおいて最も早く、最も影響力のある手法である。
BanditMFは、マルチアームバンディットアルゴリズムと協調フィルタリングの2つの課題に対処するように設計されている。
論文 参考訳(メタデータ) (2021-06-21T07:35:39Z) - Measuring Recommender System Effects with Simulated Users [19.09065424910035]
人気バイアスとフィルターバブルは、最もよく研究されているシステムバイアスの2つです。
各種ユーザ行動下におけるレコメンダーシステムの影響を測定するためのシミュレーションフレームワークを提供します。
論文 参考訳(メタデータ) (2021-01-12T14:51:11Z) - Regret in Online Recommendation Systems [73.58127515175127]
本稿では,オンライン環境におけるレコメンデーションシステムの理論的分析について提案する。
各ラウンドにおいて、ユーザがランダムに$m$ユーザから選択され、レコメンデーションが要求される。決定者は、ユーザを観察し、$n$アイテムのカタログからアイテムを選択する。
推奨アルゴリズムのパフォーマンスは、これらの可能性を認識したOracleアルゴリズムを参照して、その後悔を通じて取得される。
論文 参考訳(メタデータ) (2020-10-23T12:48:35Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。