論文の概要: Learning the Optimal Recommendation from Explorative Users
- arxiv url: http://arxiv.org/abs/2110.03068v1
- Date: Wed, 6 Oct 2021 21:01:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:27:38.476794
- Title: Learning the Optimal Recommendation from Explorative Users
- Title(参考訳): 探索的ユーザによる最適勧告の学習
- Authors: Fan Yao, Chuanhao Li, Denis Nekipelov, Hongning Wang, Haifeng Xu
- Abstract要約: 本研究では,レコメンデータシステムとユーザ間の逐次的インタラクションについて検討する。
効率的なシステム学習は依然として可能であるが、より困難であることを示す。
- 参考スコア(独自算出の注目度): 38.332330484187395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new problem setting to study the sequential interactions between
a recommender system and a user. Instead of assuming the user is omniscient,
static, and explicit, as the classical practice does, we sketch a more
realistic user behavior model, under which the user: 1) rejects recommendations
if they are clearly worse than others; 2) updates her utility estimation based
on rewards from her accepted recommendations; 3) withholds realized rewards
from the system. We formulate the interactions between the system and such an
explorative user in a $K$-armed bandit framework and study the problem of
learning the optimal recommendation on the system side. We show that efficient
system learning is still possible but is more difficult. In particular, the
system can identify the best arm with probability at least $1-\delta$ within
$O(1/\delta)$ interactions, and we prove this is tight. Our finding contrasts
the result for the problem of best arm identification with fixed confidence, in
which the best arm can be identified with probability $1-\delta$ within
$O(\log(1/\delta))$ interactions. This gap illustrates the inevitable cost the
system has to pay when it learns from an explorative user's revealed
preferences on its recommendations rather than from the realized rewards.
- Abstract(参考訳): 本稿では,レコメンダシステムとユーザ間の逐次的相互作用を研究するための新しい問題設定を提案する。
ユーザが万能で、静的で、明示的であると仮定するのではなく、従来のプラクティスのように、より現実的なユーザ行動モデルをスケッチします。
1) 明らかに他人より悪い場合は,推奨を拒絶する。
2 受諾した勧告の報奨に基づく実用性評価を更新すること。
3)システムから得られる報酬を保留する。
我々は,$k$-armed banditフレームワークを用いて,システムと探索的ユーザとのインタラクションを定式化し,システム側で最適レコメンデーションを学習する問題について検討する。
効率的なシステム学習は今でも可能だが、より難しい。
特に、システムは$O(1/\delta)$の相互作用の中で少なくとも1-\delta$の確率で最適なアームを識別できる。
我々の発見は、最適な腕識別と固定された信頼度の問題の結果とは対照的であり、最良の腕を1-\delta$の確率で$O(\log(1/\delta))$の相互作用で識別することができる。
このギャップは、システムが認識された報酬からではなく、探索的なユーザの推奨事項から学習したときの避けられないコストを示している。
関連論文リスト
- The Nah Bandit: Modeling User Non-compliance in Recommendation Systems [2.421459418045937]
Expert with Clustering(EWC)は、推奨オプションと推奨されないオプションの両方からのフィードバックを取り入れた階層的なアプローチで、ユーザの好み学習を加速する。
EWCは教師付き学習と伝統的な文脈的バンディットアプローチの両方を上回ります。
この研究は、より効果的なレコメンデーションシステムのための堅牢なフレームワークを提供する、Nah Banditにおける将来の研究の基礎を築いた。
論文 参考訳(メタデータ) (2024-08-15T03:01:02Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Modeling Attrition in Recommender Systems with Departing Bandits [84.85560764274399]
政策に依存した地平線を捉えた新しいマルチアームバンディット構成を提案する。
まず、全てのユーザが同じタイプを共有しているケースに対処し、最近の UCB ベースのアルゴリズムが最適であることを実証する。
次に、ユーザが2つのタイプに分けられる、より困難なケースを前進させます。
論文 参考訳(メタデータ) (2022-03-25T02:30:54Z) - Coordinated Attacks against Contextual Bandits: Fundamental Limits and
Defense Mechanisms [75.17357040707347]
オンラインレコメンデーションシステムによってモチベーションされた我々は,文脈的包帯における最適政策の発見問題を提案する。
目標は、優れたユーザに対する報酬を可能な限り少ないユーザインタラクションで最大化するポリシーを、しっかりと学習することだ。
効率的なロバストな平均推定器を用いることで、$tildeO(min(S,A)cdot alpha/epsilon2)$ upper-boundを実現できることを示す。
論文 参考訳(メタデータ) (2022-01-30T01:45:13Z) - Pure Exploration with Structured Preference Feedback [25.894827160719526]
我々は、機能付きN$アームを含むサブセットワイドな選好フィードバックによる純粋探索の問題を考察する。
我々は,$tildeo (fracd2k delta2)$サンプル中の最良アームの検出を少なくとも1.99ドルで保証する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-12T08:57:29Z) - Measuring Recommender System Effects with Simulated Users [19.09065424910035]
人気バイアスとフィルターバブルは、最もよく研究されているシステムバイアスの2つです。
各種ユーザ行動下におけるレコメンダーシステムの影響を測定するためのシミュレーションフレームワークを提供します。
論文 参考訳(メタデータ) (2021-01-12T14:51:11Z) - Regret in Online Recommendation Systems [73.58127515175127]
本稿では,オンライン環境におけるレコメンデーションシステムの理論的分析について提案する。
各ラウンドにおいて、ユーザがランダムに$m$ユーザから選択され、レコメンデーションが要求される。決定者は、ユーザを観察し、$n$アイテムのカタログからアイテムを選択する。
推奨アルゴリズムのパフォーマンスは、これらの可能性を認識したOracleアルゴリズムを参照して、その後悔を通じて取得される。
論文 参考訳(メタデータ) (2020-10-23T12:48:35Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。