論文の概要: A Field Test of Bandit Algorithms for Recommendations: Understanding the
Validity of Assumptions on Human Preferences in Multi-armed Bandits
- arxiv url: http://arxiv.org/abs/2304.09088v1
- Date: Sun, 16 Apr 2023 22:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 14:03:42.492425
- Title: A Field Test of Bandit Algorithms for Recommendations: Understanding the
Validity of Assumptions on Human Preferences in Multi-armed Bandits
- Title(参考訳): 推薦のためのバンディットアルゴリズムのフィールドテスト:多腕バンディットにおける人間の好みに対する仮定の有効性の理解
- Authors: Liu Leqi, Giulio Zhou, Fatma K{\i}l{\i}n\c{c}-Karzan, Zachary C.
Lipton, Alan L. Montgomery
- Abstract要約: 我々は,漫画レコメンデーションMABの設定において,クラウドワーカーと研究を行う。
我々は、人の好みが時間とともに固定されているというコアMABの仮定の有効性を確認し、それらが成り立たないことを確かめる。
この発見は、レコメンデータシステムに使用される任意のMABアルゴリズムが人間の好みのダイナミクスを考慮すべきであることを示唆している。
- 参考スコア(独自算出の注目度): 24.22285298376325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized recommender systems suffuse modern life, shaping what media we
read and what products we consume. Algorithms powering such systems tend to
consist of supervised learning-based heuristics, such as latent factor models
with a variety of heuristically chosen prediction targets. Meanwhile,
theoretical treatments of recommendation frequently address the
decision-theoretic nature of the problem, including the need to balance
exploration and exploitation, via the multi-armed bandits (MABs) framework.
However, MAB-based approaches rely heavily on assumptions about human
preferences. These preference assumptions are seldom tested using human subject
studies, partly due to the lack of publicly available toolkits to conduct such
studies. In this work, we conduct a study with crowdworkers in a comics
recommendation MABs setting. Each arm represents a comic category, and users
provide feedback after each recommendation. We check the validity of core MABs
assumptions-that human preferences (reward distributions) are fixed over
time-and find that they do not hold. This finding suggests that any MAB
algorithm used for recommender systems should account for human preference
dynamics. While answering these questions, we provide a flexible experimental
framework for understanding human preference dynamics and testing MABs
algorithms with human users. The code for our experimental framework and the
collected data can be found at
https://github.com/HumainLab/human-bandit-evaluation.
- Abstract(参考訳): パーソナライズされたレコメンデーションシステムは、我々が読んだメディアと消費するプロダクトを形作る、モダンな生活を妨げている。
このようなシステムを動かすアルゴリズムは、様々なヒューリスティックに選択された予測対象を持つ潜在因子モデルのような教師付き学習に基づくヒューリスティックから成り立っている。
一方、レコメンデーションの理論的治療は、マルチアーム・バンディット(MAB)フレームワークを介して、探索と搾取のバランスを取る必要性を含む、問題の決定論的性質にしばしば対処する。
しかし、MABベースのアプローチは人間の嗜好に関する仮定に大きく依存している。
これらの嗜好の仮定は、そのような研究を行うための公的なツールキットが欠如していることもあって、人間の被験者による研究ではほとんどテストされない。
本研究では,マンガのレコメンデーションマブセットで,群集作業者を対象に研究を行う。
各アームはコミックのカテゴリを表し、ユーザーは推奨後にフィードバックを提供する。
人間の選好(逆分布)が時間とともに固定されているというコアMABの仮定の有効性を確認し、それらが保持されていないことを確認する。
この発見は、レコメンデータシステムに使用される任意のMABアルゴリズムが人間の好みのダイナミクスを考慮すべきであることを示唆している。
これらの疑問に答えつつ、人間の嗜好のダイナミクスを理解し、MABsアルゴリズムをユーザとテストするための柔軟な実験フレームワークを提供する。
実験フレームワークと収集したデータのコードは、https://github.com/HumainLab/ Human-bandit-evaluationで確認できます。
関連論文リスト
- Algorithmic Drift: A Simulation Framework to Study the Effects of Recommender Systems on User Preferences [7.552217586057245]
本稿では,長期シナリオにおけるユーザ-リコメンダ間のインタラクションを模倣するシミュレーションフレームワークを提案する。
本稿では,ユーザの嗜好に対するアルゴリズムの影響を定量化する2つの新しい指標について紹介する。
論文 参考訳(メタデータ) (2024-09-24T21:54:22Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Top-N Recommendation with Counterfactual User Preference Simulation [26.597102553608348]
ユーザーランキングに基づく好みの学習を目的としたTop-Nレコメンデーションは、長い間、広範囲のアプリケーションにおいて基本的な問題だった。
本稿では,データ不足問題に対処するため,因果推論フレームワーク内での推薦タスクの再構築を提案する。
論文 参考訳(メタデータ) (2021-09-02T14:28:46Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Learning User Preferences in Non-Stationary Environments [42.785926822853746]
オンラインノンステーショナリーレコメンデーションシステムのための新しいモデルを紹介します。
好みが変化しない場合でも,我々のアルゴリズムが他の静的アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-29T10:26:16Z) - Measuring Recommender System Effects with Simulated Users [19.09065424910035]
人気バイアスとフィルターバブルは、最もよく研究されているシステムバイアスの2つです。
各種ユーザ行動下におけるレコメンダーシステムの影響を測定するためのシミュレーションフレームワークを提供します。
論文 参考訳(メタデータ) (2021-01-12T14:51:11Z) - Combinatorial Pure Exploration with Full-bandit Feedback and Beyond:
Solving Combinatorial Optimization under Uncertainty with Limited Observation [70.41056265629815]
最適化アルゴリズムを開発する際、エッジウェイトなどのパラメータが入力として正確に知られていることが一般的である。
本稿では、最近、限られたフィードバックを伴う純粋探索問題に対する手法について概説する。
論文 参考訳(メタデータ) (2020-12-31T12:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。