論文の概要: When and Whom to Collaborate with in a Changing Environment: A
Collaborative Dynamic Bandit Solution
- arxiv url: http://arxiv.org/abs/2104.07150v1
- Date: Wed, 14 Apr 2021 22:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 14:52:47.835089
- Title: When and Whom to Collaborate with in a Changing Environment: A
Collaborative Dynamic Bandit Solution
- Title(参考訳): 変化する環境におけるいつ、誰がコラボレートするか:協調的動的バンドソリューション
- Authors: Chuanhao Li, Qingyun Wu, Hongning Wang
- Abstract要約: 協調バンディットアルゴリズムは、協調フィルタリング技術を用いて、オンラインインタラクティブレコメンデーションにおけるサンプル効率を改善する。
すべての既存の共同バンディット学習ソリューションは、環境に関する定常的な仮定を課します。
我々は,環境変化に対応するための協調型動的バンディットソリューションを開発した。
- 参考スコア(独自算出の注目度): 36.76450390135742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative bandit learning, i.e., bandit algorithms that utilize
collaborative filtering techniques to improve sample efficiency in online
interactive recommendation, has attracted much research attention as it enjoys
the best of both worlds. However, all existing collaborative bandit learning
solutions impose a stationary assumption about the environment, i.e., both user
preferences and the dependency among users are assumed static over time.
Unfortunately, this assumption hardly holds in practice due to users'
ever-changing interests and dependence relations, which inevitably costs a
recommender system sub-optimal performance in practice.
In this work, we develop a collaborative dynamic bandit solution to handle a
changing environment for recommendation. We explicitly model the underlying
changes in both user preferences and their dependency relation as a stochastic
process. Individual user's preference is modeled by a mixture of globally
shared contextual bandit models with a Dirichlet Process prior. Collaboration
among users is thus achieved via Bayesian inference over the global bandit
models. Model selection and arm selection for each user are done via Thompson
sampling to balance exploitation and exploration. Our solution is proved to
maintain a standard $\tilde O(\sqrt{T})$ sublinear regret even in such a
challenging environment. And extensive empirical evaluations on both synthetic
and real-world datasets further confirmed the necessity of modeling a changing
environment and our algorithm's practical advantages against several
state-of-the-art online learning solutions.
- Abstract(参考訳): コラボレーティブバンディット学習(collaborative bandit learning)とは、オンラインインタラクティブなレコメンデーションにおいてサンプル効率を向上させるために協調フィルタリング技術を利用するバンディットアルゴリズムである。
しかし、既存のすべての協調的帯域学習ソリューションは、環境について定常的な仮定を課している。
残念なことに、この仮定はユーザーの関心や依存関係が絶え間なく変化するため、実際にはほとんど成立しない。
本研究では,環境変化に対応するための協調的動的バンドイットソリューションを開発する。
ユーザの好みと依存関係の関係の両方を確率的プロセスとして明示的にモデル化します。
個々のユーザの好みは、前にdirichletプロセスとグローバルに共有されたコンテキストバンディットモデルの混合によってモデル化される。
ユーザ間のコラボレーションは,グローバルバンディットモデルに対するベイズ推定を通じて達成される。
各ユーザのモデル選択とアーム選択は、Thompsonサンプリングを通じて行われ、エクスプロイトと探索のバランスをとる。
我々の解は、そのような困難な環境でも標準の$\tilde o(\sqrt{t})$ sublinear regretを維持することが証明されている。
また,合成データと実世界データの両方に対する広範な実験評価により,変化環境のモデル化の必要性と,最先端のオンライン学習ソリューションに対するアルゴリズムの実用的優位性が確認された。
関連論文リスト
- Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Interactive Graph Convolutional Filtering [79.34979767405979]
インタラクティブ・レコメンダ・システム(IRS)は、パーソナライズされた記事レコメンデーション、ソーシャルメディア、オンライン広告など、さまざまな領域でますます利用されている。
これらの問題は、コールドスタート問題とデータスポーサリティ問題によって悪化する。
既存のMulti-Armed Bandit手法は、慎重に設計された探査戦略にもかかわらず、しばしば初期の段階で満足な結果を提供するのに苦労する。
提案手法は,ユーザとアイテム間の協調フィルタリング性能を向上させるため,協調フィルタリングをグラフモデルに拡張する。
論文 参考訳(メタデータ) (2023-09-04T09:02:31Z) - Graph Neural Bandits [49.85090929163639]
グラフニューラルネットワーク(GNN)によって強化されたユーザ間の協調性を生かしたグラフニューラルバンド(GNB)というフレームワークを提案する。
提案手法を改良するために,推定ユーザグラフ上の別々のGNNモデルを用いて,エクスプロイトと適応探索を行う。
論文 参考訳(メタデータ) (2023-08-21T15:57:57Z) - An Empirical Evaluation of Federated Contextual Bandit Algorithms [27.275089644378376]
フェデレートされた学習は、ユーザが関心のあるアプリケーションと対話するときに生成される暗黙の信号を使って行うことができる。
我々は,フェデレートされた設定のための集中的な設定から,顕著な文脈的帯域幅アルゴリズムの変種を開発する。
本実験は, 探索・探索のトレードオフのバランスをとる上で, シンプルで一般的なソフトマックスの驚くべき有効性を明らかにした。
論文 参考訳(メタデータ) (2023-03-17T19:22:30Z) - Federated Online Sparse Decision Making [24.856596181768364]
textttFedego Lassoは、新しいマルチクライアント・利己的なバンディットポリシー設計に依存している。
提案アルゴリズムの有効性を,合成データセットと実世界のデータセットの両方で実証した。
論文 参考訳(メタデータ) (2022-02-27T20:34:41Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - Learning User Preferences in Non-Stationary Environments [42.785926822853746]
オンラインノンステーショナリーレコメンデーションシステムのための新しいモデルを紹介します。
好みが変化しない場合でも,我々のアルゴリズムが他の静的アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-29T10:26:16Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z) - Optimizing Long-term Social Welfare in Recommender Systems: A
Constrained Matching Approach [36.54379845220444]
一定レベルのユーザエンゲージメントを受けない限り、コンテンツプロバイダが存続できないような設定について検討する。
我々のモデルは、十分に多様な実現可能な提供者によって支えられる最大限の社会福祉と平衡に達することを保証します。
我々は、これらの結果が実用的意味でより公平であると主張する、ユーザの後悔と公平性のさまざまな概念に関連性を引き出す。
論文 参考訳(メタデータ) (2020-07-31T22:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。