論文の概要: Bandits Under The Influence (Extended Version)
- arxiv url: http://arxiv.org/abs/2009.10135v1
- Date: Mon, 21 Sep 2020 19:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 04:42:29.099175
- Title: Bandits Under The Influence (Extended Version)
- Title(参考訳): 影響下の盗賊(拡張版)
- Authors: Silviu Maniu, Stratis Ioannidis, Bogdan Cautis
- Abstract要約: 線形多武装バンディット文学に根ざしたオンラインレコメンデーションアルゴリズムを提案する。
我々のバンディットアルゴリズムは、ユーザーの興味が社会的影響の下で進化するレコメンデーションシナリオに正確に適合している。
- 参考スコア(独自算出の注目度): 14.829802725813868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender systems should adapt to user interests as the latter evolve. A
prevalent cause for the evolution of user interests is the influence of their
social circle. In general, when the interests are not known, online algorithms
that explore the recommendation space while also exploiting observed
preferences are preferable. We present online recommendation algorithms rooted
in the linear multi-armed bandit literature. Our bandit algorithms are tailored
precisely to recommendation scenarios where user interests evolve under social
influence. In particular, we show that our adaptations of the classic LinREL
and Thompson Sampling algorithms maintain the same asymptotic regret bounds as
in the non-social case. We validate our approach experimentally using both
synthetic and real datasets.
- Abstract(参考訳): レコメンダシステムは、後者が進化するにつれてユーザーの興味に適応すべきである。
ユーザの関心が進化する主な原因は、その社会的サークルの影響である。
一般に、興味が不明な場合には、観察された好みを活用しながらレコメンデーション空間を探索するオンラインアルゴリズムが望ましい。
線形多武装バンディット文学に根ざしたオンラインレコメンデーションアルゴリズムを提案する。
我々のバンディットアルゴリズムは、ユーザーの興味が社会的影響の下で進化するレコメンデーションシナリオに正確に適合している。
特に,古典的リレルおよびトンプソンサンプリングアルゴリズムの適応は,非社会的な場合と同様の漸近的後悔の限界を維持していることを示す。
合成データと実データの両方を用いて実験を行った。
関連論文リスト
- When Online Algorithms Influence the Environment: A Dynamical Systems Analysis of the Unintended Consequences [5.4209739979186295]
オンラインアルゴリズムが学習環境に与える影響を分析する。
提案アルゴリズムは,このミスマッチの存在下で個体群の嗜好を学習できる場合,利用者の嗜好に類似性をもたらすことを示す。
論文 参考訳(メタデータ) (2024-11-21T06:47:53Z) - Algorithmic Drift: A Simulation Framework to Study the Effects of Recommender Systems on User Preferences [7.552217586057245]
本稿では,長期シナリオにおけるユーザ-リコメンダ間のインタラクションを模倣するシミュレーションフレームワークを提案する。
本稿では,ユーザの嗜好に対するアルゴリズムの影響を定量化する2つの新しい指標について紹介する。
論文 参考訳(メタデータ) (2024-09-24T21:54:22Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Neural Contextual Bandits for Personalized Recommendation [49.85090929163639]
本チュートリアルでは、パーソナライズされたレコメンデーションのための強力なフレームワークとして、コンテキスト帯について検討する。
我々は、リコメンデーターシステムにおける「マシュー効果」を緩和するために、文脈的盗賊の探索的視点に焦点を当てる。
従来の線形文脈包帯に加えて、我々は神経文脈包帯にも焦点をあてる。
論文 参考訳(メタデータ) (2023-12-21T17:03:26Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Bayesian Non-stationary Linear Bandits for Large-Scale Recommender
Systems [6.009759445555003]
この問題に対処するために,線形コンテキスト多重武装バンディットフレームワークを構築した。
本研究では,高次元特徴ベクトルを用いた線形帯域問題に対する意思決定ポリシーを開発する。
提案するリコメンデータシステムは,実行環境を最小化しながら,ユーザの項目嗜好をオンラインで学習する。
論文 参考訳(メタデータ) (2022-02-07T13:51:19Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Learning User Preferences in Non-Stationary Environments [42.785926822853746]
オンラインノンステーショナリーレコメンデーションシステムのための新しいモデルを紹介します。
好みが変化しない場合でも,我々のアルゴリズムが他の静的アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-29T10:26:16Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z) - A Soft Recommender System for Social Networks [1.8275108630751844]
最近のソーシャルレコメンデーションシステムは、正確なレコメンデーションを行うために友情グラフの恩恵を受けている。
われわれはさらに一歩進んで、もっとリアルなリコメンデーションをする真の友達を特定した。
ユーザ間の類似度と,ユーザとアイテム間の依存関係を計算した。
論文 参考訳(メタデータ) (2020-01-08T13:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。