論文の概要: Anonymous Bandits for Multi-User Systems
- arxiv url: http://arxiv.org/abs/2210.12198v1
- Date: Fri, 21 Oct 2022 18:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:54:06.719208
- Title: Anonymous Bandits for Multi-User Systems
- Title(参考訳): マルチユーザシステムのための匿名帯域
- Authors: Hossein Esfandiari, Vahab Mirrokni, Jon Schneider
- Abstract要約: 我々は、最低でも$k$のユーザに対して、各観察を報酬の集まりとして要求することで、標準の$k$匿名性制約に従うように、盗賊の概念を拡張します。
これによって、ユーザの個々の決定を監視せずに、オンライン形式でユーザのクラスタリングを学習できる、シンプルで効果的なフレームワークが提供される。
- 参考スコア(独自算出の注目度): 32.17388273701159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present and study a new framework for online learning in
systems with multiple users that provide user anonymity. Specifically, we
extend the notion of bandits to obey the standard $k$-anonymity constraint by
requiring each observation to be an aggregation of rewards for at least $k$
users. This provides a simple yet effective framework where one can learn a
clustering of users in an online fashion without observing any user's
individual decision. We initiate the study of anonymous bandits and provide the
first sublinear regret algorithms and lower bounds for this setting.
- Abstract(参考訳): 本稿では,ユーザ匿名性を提供する複数のユーザを持つシステムにおけるオンライン学習のための新しいフレームワークについて紹介し,検討する。
具体的には、各観察を少なくとも$k$ユーザに対する報酬の集約とすることで、標準の$k$-匿名性制約に従うようにバンドイットの概念を拡張します。
これによって、ユーザの個々の決定を監視せずに、オンライン形式でユーザのクラスタリングを学習できる、シンプルで効果的なフレームワークが提供される。
我々は、匿名のバンディットの研究を開始し、この設定に最初の部分線形後悔アルゴリズムと下限を提供する。
関連論文リスト
- Online Corrupted User Detection and Regret Minimization [49.536254494829436]
現実世界のオンラインウェブシステムでは、複数のユーザがシステムに順次到着する。
乱れた行動から未知のユーザ関係を学習・活用するために,LOCUDという重要なオンライン学習問題を提案する。
我々はRCLUB-WCUの推測ユーザ関係に基づく新しいオンライン検出アルゴリズムOCCUDを考案した。
論文 参考訳(メタデータ) (2023-10-07T10:20:26Z) - Evaluating Online Bandit Exploration In Large-Scale Recommender System [0.7981257687111937]
バンド学習は、リコメンデーターシステムにとって、ますますポピュラーなデザイン選択である。
1つの大きなボトルネックは、公正さとデータリークのない帯域幅アルゴリズムの有効性をテストする方法である。
論文 参考訳(メタデータ) (2023-04-05T16:44:36Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Modeling Attrition in Recommender Systems with Departing Bandits [84.85560764274399]
政策に依存した地平線を捉えた新しいマルチアームバンディット構成を提案する。
まず、全てのユーザが同じタイプを共有しているケースに対処し、最近の UCB ベースのアルゴリズムが最適であることを実証する。
次に、ユーザが2つのタイプに分けられる、より困難なケースを前進させます。
論文 参考訳(メタデータ) (2022-03-25T02:30:54Z) - Learning the Optimal Recommendation from Explorative Users [38.332330484187395]
本研究では,レコメンデータシステムとユーザ間の逐次的インタラクションについて検討する。
効率的なシステム学習は依然として可能であるが、より困難であることを示す。
論文 参考訳(メタデータ) (2021-10-06T21:01:18Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。