論文の概要: Sequential Choice Bandits with Feedback for Personalizing users'
experience
- arxiv url: http://arxiv.org/abs/2101.01572v1
- Date: Tue, 5 Jan 2021 15:04:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 11:40:46.757119
- Title: Sequential Choice Bandits with Feedback for Personalizing users'
experience
- Title(参考訳): ユーザ体験をパーソナライズするためのフィードバック付き順次選択バンディット
- Authors: Anshuka Rangi, Massimo Franceschetti and Long Tran-Thanh
- Abstract要約: 我々は,ユーザ体験をパーソナライズして報奨を最大化するプラットフォームのためのbanditアルゴリズムを提案する。
このアクションがユーザのしきい値より下にある場合、与えられたユーザに対して、プラットフォームには肯定的な報酬が与えられ、これはアクションの非減少機能である。
パーソナライズされた体験を受け取る前のユーザの待ち時間は、$N$で均一であることを示す。
- 参考スコア(独自算出の注目度): 30.88733976124061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study sequential choice bandits with feedback. We propose
bandit algorithms for a platform that personalizes users' experience to
maximize its rewards. For each action directed to a given user, the platform is
given a positive reward, which is a non-decreasing function of the action, if
this action is below the user's threshold. Users are equipped with a patience
budget, and actions that are above the threshold decrease the user's patience.
When all patience is lost, the user abandons the platform. The platform
attempts to learn the thresholds of the users in order to maximize its rewards,
based on two different feedback models describing the information pattern
available to the platform at each action. We define a notion of regret by
determining the best action to be taken when the platform knows that the user's
threshold is in a given interval. We then propose bandit algorithms for the two
feedback models and show that upper and lower bounds on the regret are of the
order of $\tilde{O}(N^{2/3})$ and $\tilde\Omega(N^{2/3})$, respectively, where
$N$ is the total number of users. Finally, we show that the waiting time of any
user before receiving a personalized experience is uniform in $N$.
- Abstract(参考訳): 本研究では,フィードバックを用いた逐次選択帯域について検討する。
ユーザエクスペリエンスをパーソナライズして報酬を最大化するプラットフォームのためのバンドアルゴリズムを提案する。
このアクションがユーザのしきい値より下にある場合、与えられたユーザに対して、プラットフォームには肯定的な報酬が与えられ、これはアクションの非減少機能である。
ユーザは忍耐予算を備えており、しきい値を超えるアクションは忍耐を減少させる。
すべての忍耐が失われると、ユーザはプラットフォームを放棄する。
プラットフォームは、各アクションでプラットフォームに利用可能な情報パターンを記述する2つの異なるフィードバックモデルに基づいて、報酬を最大化するために、ユーザのしきい値の学習を試みる。
プラットフォームがユーザのしきい値が一定間隔にあることを知っていれば,最も適切なアクションを決定することで,後悔の概念を定義します。
次に、2つのフィードバックモデルに対するbanditアルゴリズムを提案し、後悔の上限が$\tilde{o}(n^{2/3})$と$\tilde\omega(n^{2/3})$の順であることを示し、そこでは$n$がユーザの総数である。
最後に、パーソナライズされた体験を受け取る前のユーザの待ち時間は、$N$で均一であることを示す。
関連論文リスト
- Adversarial Bandits with Multi-User Delayed Feedback: Theory and
Application [17.64363983613468]
我々は,マルチユーザ遅延フィードバックを用いた逆MAB問題を定式化し,修正されたEXP3アルゴリズム MUD-EXP3 を設計する。
本稿では,複数のユーザからの遅延フィードバック結果について考察し,内部分布に制限を加えることなく検討する。
論文 参考訳(メタデータ) (2023-10-17T12:08:15Z) - User-Level Differential Privacy With Few Examples Per User [73.81862394073308]
サンプルスカース方式では,各ユーザが少数のサンプルしか持たないため,以下の結果が得られる。
近似DPについては,任意の項目レベルDPアルゴリズムをユーザレベルDPアルゴリズムに汎用変換する。
ユーザレベル設定に指数的機構(McSherry, Talwar FOCS 2007)を適用するための簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-09-21T21:51:55Z) - Preferences Evolve And So Should Your Bandits: Bandits with Evolving States for Online Platforms [12.368291979686122]
本稿では,決定論的に進化し,観測不能な状態を考慮しながら,帯域幅フィードバックによる学習モデルを提案する。
我々のモデルにおけるワークホースの応用は、レコメンデーションシステムのための学習とオンライン広告のための学習である。
論文 参考訳(メタデータ) (2023-07-21T15:43:32Z) - PUNR: Pre-training with User Behavior Modeling for News Recommendation [26.349183393252115]
ニュースレコメンデーションは、ユーザーの行動に基づいてクリック行動を予測することを目的としている。
ユーザの表現を効果的にモデル化する方法が、望ましいニュースを推奨する鍵である。
本研究では,ユーザ行動マスキングとユーザ行動生成という2つのタスクを備えた教師なし事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T08:03:52Z) - Eliciting User Preferences for Personalized Multi-Objective Decision
Making through Comparative Feedback [76.7007545844273]
目的に対して異なるユーザの好みに対応する多目的意思決定フレームワークを提案する。
我々のモデルは、ベクトル値の報酬関数を持つマルコフ決定プロセスで構成され、各ユーザが未知の選好ベクトルを持つ。
少数の比較クエリを用いて,ユーザに対してほぼ最適なポリシを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T23:58:19Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - PinnerFormer: Sequence Modeling for User Representation at Pinterest [60.335384724891746]
我々は、ユーザの将来的なエンゲージメントを予測するためにトレーニングされたユーザ表現であるPinnerFormerを紹介する。
従来のアプローチとは異なり、新しい密集した全アクション損失を通じて、モデリングをバッチインフラストラクチャに適応させます。
その結果,1日に1回発生するバッチユーザ埋め込みと,ユーザがアクションを行うたびに発生するリアルタイムユーザ埋め込みとの間には,大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2022-05-09T18:26:51Z) - Modeling Attrition in Recommender Systems with Departing Bandits [84.85560764274399]
政策に依存した地平線を捉えた新しいマルチアームバンディット構成を提案する。
まず、全てのユーザが同じタイプを共有しているケースに対処し、最近の UCB ベースのアルゴリズムが最適であることを実証する。
次に、ユーザが2つのタイプに分けられる、より困難なケースを前進させます。
論文 参考訳(メタデータ) (2022-03-25T02:30:54Z) - Learning Reward Functions from Scale Feedback [11.941038991430837]
一般的なフレームワークは、ユーザーが好む2つのロボット軌跡について反復的に質問することである。
そこで我々は,ユーザがスライダを使ってよりニュアンスな情報を提供するスケールフィードバックを提案する。
シミュレーションにおいてスライダフィードバックの利点を実証し,2つのユーザスタディにおけるアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-10-01T09:45:18Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。