論文の概要: Modeling Attrition in Recommender Systems with Departing Bandits
- arxiv url: http://arxiv.org/abs/2203.13423v2
- Date: Thu, 15 Feb 2024 22:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 21:30:38.933134
- Title: Modeling Attrition in Recommender Systems with Departing Bandits
- Title(参考訳): 出発するバンディットを持つレコメンダシステムにおけるアトリビューションのモデル化
- Authors: Omer Ben-Porat, Lee Cohen, Liu Leqi, Zachary C. Lipton, Yishay Mansour
- Abstract要約: 政策に依存した地平線を捉えた新しいマルチアームバンディット構成を提案する。
まず、全てのユーザが同じタイプを共有しているケースに対処し、最近の UCB ベースのアルゴリズムが最適であることを実証する。
次に、ユーザが2つのタイプに分けられる、より困難なケースを前進させます。
- 参考スコア(独自算出の注目度): 84.85560764274399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditionally, when recommender systems are formalized as multi-armed
bandits, the policy of the recommender system influences the rewards accrued,
but not the length of interaction. However, in real-world systems, dissatisfied
users may depart (and never come back). In this work, we propose a novel
multi-armed bandit setup that captures such policy-dependent horizons. Our
setup consists of a finite set of user types, and multiple arms with Bernoulli
payoffs. Each (user type, arm) tuple corresponds to an (unknown) reward
probability. Each user's type is initially unknown and can only be inferred
through their response to recommendations. Moreover, if a user is dissatisfied
with their recommendation, they might depart the system. We first address the
case where all users share the same type, demonstrating that a recent UCB-based
algorithm is optimal. We then move forward to the more challenging case, where
users are divided among two types. While naive approaches cannot handle this
setting, we provide an efficient learning algorithm that achieves
$\tilde{O}(\sqrt{T})$ regret, where $T$ is the number of users.
- Abstract(参考訳): 伝統的に、レコメンダシステムがマルチアームのバンディットとして形式化された場合、レコメンダシステムのポリシーは報酬に影響を与えるが、インタラクションの長さには影響しない。
しかし、現実世界のシステムでは、不満を抱いたユーザーは立ち去る(二度と戻らない)。
本稿では,このような政策依存の地平線を捉えた,新しいマルチアームバンディット設定を提案する。
私たちのセットアップは、ユーザタイプの有限セットと、Bernoulliのペイオフを備えた複数のアームで構成されています。
各タプル(ユーザータイプ、アーム)は(未知の)報酬確率に対応する。
各ユーザのタイプは最初は不明で、レコメンデーションへの応答を通じてのみ推測できる。
さらに、ユーザの推奨に不満がある場合は、システムを離れる可能性がある。
まず、全てのユーザが同じタイプを共有し、最近の UCB ベースのアルゴリズムが最適であることを示す。
次に、ユーザが2つのタイプに分けられる、より困難なケースに進みます。
ナイーブなアプローチでは、この設定を処理できないが、$T$がユーザ数である場合に、$\tilde{O}(\sqrt{T})$ regretを達成する効率的な学習アルゴリズムを提供する。
関連論文リスト
- The Nah Bandit: Modeling User Non-compliance in Recommendation Systems [2.421459418045937]
Expert with Clustering(EWC)は、推奨オプションと推奨されないオプションの両方からのフィードバックを取り入れた階層的なアプローチで、ユーザの好み学習を加速する。
EWCは教師付き学習と伝統的な文脈的バンディットアプローチの両方を上回ります。
この研究は、より効果的なレコメンデーションシステムのための堅牢なフレームワークを提供する、Nah Banditにおける将来の研究の基礎を築いた。
論文 参考訳(メタデータ) (2024-08-15T03:01:02Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Coordinated Attacks against Contextual Bandits: Fundamental Limits and
Defense Mechanisms [75.17357040707347]
オンラインレコメンデーションシステムによってモチベーションされた我々は,文脈的包帯における最適政策の発見問題を提案する。
目標は、優れたユーザに対する報酬を可能な限り少ないユーザインタラクションで最大化するポリシーを、しっかりと学習することだ。
効率的なロバストな平均推定器を用いることで、$tildeO(min(S,A)cdot alpha/epsilon2)$ upper-boundを実現できることを示す。
論文 参考訳(メタデータ) (2022-01-30T01:45:13Z) - Learning the Optimal Recommendation from Explorative Users [38.332330484187395]
本研究では,レコメンデータシステムとユーザ間の逐次的インタラクションについて検討する。
効率的なシステム学習は依然として可能であるが、より困難であることを示す。
論文 参考訳(メタデータ) (2021-10-06T21:01:18Z) - BanditMF: Multi-Armed Bandit Based Matrix Factorization Recommender
System [0.0]
マルチアーム・バンディット(MAB)は、探索と搾取のバランスをとるために原則化されたオンライン学習アプローチを提供する。
協調フィルタリング(CF)は、おそらく推奨システムにおいて最も早く、最も影響力のある手法である。
BanditMFは、マルチアームバンディットアルゴリズムと協調フィルタリングの2つの課題に対処するように設計されている。
論文 参考訳(メタデータ) (2021-06-21T07:35:39Z) - Measuring Recommender System Effects with Simulated Users [19.09065424910035]
人気バイアスとフィルターバブルは、最もよく研究されているシステムバイアスの2つです。
各種ユーザ行動下におけるレコメンダーシステムの影響を測定するためのシミュレーションフレームワークを提供します。
論文 参考訳(メタデータ) (2021-01-12T14:51:11Z) - Regret in Online Recommendation Systems [73.58127515175127]
本稿では,オンライン環境におけるレコメンデーションシステムの理論的分析について提案する。
各ラウンドにおいて、ユーザがランダムに$m$ユーザから選択され、レコメンデーションが要求される。決定者は、ユーザを観察し、$n$アイテムのカタログからアイテムを選択する。
推奨アルゴリズムのパフォーマンスは、これらの可能性を認識したOracleアルゴリズムを参照して、その後悔を通じて取得される。
論文 参考訳(メタデータ) (2020-10-23T12:48:35Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。