論文の概要: Leveraging heterogeneous spillover effects in maximizing contextual
bandit rewards
- arxiv url: http://arxiv.org/abs/2310.10259v1
- Date: Mon, 16 Oct 2023 10:34:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 01:36:31.297313
- Title: Leveraging heterogeneous spillover effects in maximizing contextual
bandit rewards
- Title(参考訳): 文脈的包帯報酬の最大化における不均一な流出効果の活用
- Authors: Ahmed Sayeed Faruk, Elena Zheleva
- Abstract要約: このような異質な流出を考慮に入れた文脈的マルチアームバンディットを実現するフレームワークを提案する。
提案手法は, 流出を無視する既存のソリューションよりも, はるかに高い報酬をもたらす。
- 参考スコア(独自算出の注目度): 12.533920403498453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recommender systems relying on contextual multi-armed bandits continuously
improve relevant item recommendations by taking into account the contextual
information. The objective of these bandit algorithms is to learn the best arm
(i.e., best item to recommend) for each user and thus maximize the cumulative
rewards from user engagement with the recommendations. However, current
approaches ignore potential spillover between interacting users, where the
action of one user can impact the actions and rewards of other users. Moreover,
spillover may vary for different people based on their preferences and the
closeness of ties to other users. This leads to heterogeneity in the spillover
effects, i.e., the extent to which the action of one user can impact the action
of another. Here, we propose a framework that allows contextual multi-armed
bandits to account for such heterogeneous spillovers when choosing the best arm
for each user. By experimenting on several real-world datasets using prominent
linear and non-linear contextual bandit algorithms, we observe that our
proposed method leads to significantly higher rewards than existing solutions
that ignore spillover.
- Abstract(参考訳): コンテクストマルチアームバンドに依存するレコメンダシステムは、コンテクスト情報を考慮して、関連するアイテムレコメンデーションを継続的に改善する。
これらのバンディットアルゴリズムの目的は、各ユーザの最高のアーム(推奨すべき最善のアイテム)を学習し、ユーザのレコメンデーションによる累積報酬を最大化することである。
しかしながら、現在のアプローチでは、あるユーザのアクションが他のユーザのアクションや報酬に影響を与える可能性がある、インタラクションユーザ間の潜在的な流出を無視している。
さらに、他人の好みや、他のユーザーとの結びつきの近さによって、引きこもりは異なる可能性がある。
これにより、あるユーザのアクションが他のユーザのアクションにどの程度影響するかという、スプリンクラー効果の不均一性が生じる。
本稿では,各ユーザに対して最適なアームを選択する際に,コンテキスト的マルチアームバンディットを考慮に入れたフレームワークを提案する。
線形および非線形の文脈的バンディットアルゴリズムを用いて,実世界のデータセットを複数実験することにより,提案手法が流出を無視する既存の解よりも高い報酬をもたらすことを検証した。
関連論文リスト
- Incentive-Aware Recommender Systems in Two-Sided Markets [69.11586678637816]
エージェントのインセンティブを尊重する新しい推薦システムを提案する。
両政策は, エージェントが過度の暴露から保護される, ポストフェアネス基準を満たすことを示す。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Recommendation with User Active Disclosing Willingness [20.306413327597603]
本研究では,ユーザが異なる行動を公開する上で,その「意志」を示すことを許される,新しい推薦パラダイムについて検討する。
我々は,推薦品質とユーザ開示意欲のバランスをとる上で,モデルの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-10-25T04:43:40Z) - Two-Stage Neural Contextual Bandits for Personalised News Recommendation [50.3750507789989]
既存のパーソナライズされたニュースレコメンデーション手法は、ユーザの興味を搾取することに集中し、レコメンデーションにおける探索を無視する。
我々は、エクスプロイトと探索のトレードオフに対処する文脈的包括的レコメンデーション戦略に基づいて構築する。
我々はユーザとニュースにディープラーニング表現を使用し、ニューラルアッパー信頼境界(UCB)ポリシーを一般化し、加法的 UCB と双線形 UCB を一般化する。
論文 参考訳(メタデータ) (2022-06-26T12:07:56Z) - Selectively Contextual Bandits [11.438194383787604]
本稿では,個人化のメリットを保ちながら,ユーザ間の待遇の共通性を高めつつ,新たなオンライン学習アルゴリズムを提案する。
提案手法は文脈自由なマルチアームバンディットアルゴリズムと文脈自由なマルチアームバンディットを選択的に補間する。
提案手法を,公開データセットを用いた分類設定で評価し,ハイブリットポリシーの利点を示す。
論文 参考訳(メタデータ) (2022-05-09T19:47:46Z) - Modeling Attrition in Recommender Systems with Departing Bandits [84.85560764274399]
政策に依存した地平線を捉えた新しいマルチアームバンディット構成を提案する。
まず、全てのユーザが同じタイプを共有しているケースに対処し、最近の UCB ベースのアルゴリズムが最適であることを実証する。
次に、ユーザが2つのタイプに分けられる、より困難なケースを前進させます。
論文 参考訳(メタデータ) (2022-03-25T02:30:54Z) - Learning the Optimal Recommendation from Explorative Users [38.332330484187395]
本研究では,レコメンデータシステムとユーザ間の逐次的インタラクションについて検討する。
効率的なシステム学習は依然として可能であるが、より困難であることを示す。
論文 参考訳(メタデータ) (2021-10-06T21:01:18Z) - BanditMF: Multi-Armed Bandit Based Matrix Factorization Recommender
System [0.0]
マルチアーム・バンディット(MAB)は、探索と搾取のバランスをとるために原則化されたオンライン学習アプローチを提供する。
協調フィルタリング(CF)は、おそらく推奨システムにおいて最も早く、最も影響力のある手法である。
BanditMFは、マルチアームバンディットアルゴリズムと協調フィルタリングの2つの課題に対処するように設計されている。
論文 参考訳(メタデータ) (2021-06-21T07:35:39Z) - User-oriented Fairness in Recommendation [21.651482297198687]
我々は,レコメンダシステムにおける不公平性問題に対して,ユーザの視点から対処する。
ユーザの行動レベルに応じて、有利で不利なグループにグループ化します。
提案手法は,レコメンデーションシステムにおけるユーザのグループ公平性を向上するだけでなく,全体的なレコメンデーション性能も向上する。
論文 参考訳(メタデータ) (2021-04-21T17:50:31Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z) - Fairness-Aware Explainable Recommendation over Knowledge Graphs [73.81994676695346]
ユーザのアクティビティのレベルに応じて異なるグループのユーザを分析し、異なるグループ間での推奨パフォーマンスにバイアスが存在することを確認する。
不活性なユーザは、不活性なユーザのためのトレーニングデータが不十分なため、不満足なレコメンデーションを受けやすい可能性がある。
本稿では、知識グラフに対する説明可能な推奨という文脈で、この問題を緩和するために再ランク付けすることで、公平性に制約されたアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-03T05:04:38Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。