論文の概要: Contextual-Bandit Based Personalized Recommendation with Time-Varying
User Interests
- arxiv url: http://arxiv.org/abs/2003.00359v1
- Date: Sat, 29 Feb 2020 22:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 19:59:13.143975
- Title: Contextual-Bandit Based Personalized Recommendation with Time-Varying
User Interests
- Title(参考訳): 時間変化を考慮したコンテキスト境界に基づくパーソナライズドレコメンデーション
- Authors: Xiao Xu, Fang Dong, Yanghua Li, Shaojian He, Xin Li
- Abstract要約: 非定常環境では文脈的包帯問題を研究する。
異なる項目に対するユーザの好みは、時間とともに異なる。
突発的な報酬変化に適応する効率的な学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.248271996987802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A contextual bandit problem is studied in a highly non-stationary
environment, which is ubiquitous in various recommender systems due to the
time-varying interests of users. Two models with disjoint and hybrid payoffs
are considered to characterize the phenomenon that users' preferences towards
different items vary differently over time. In the disjoint payoff model, the
reward of playing an arm is determined by an arm-specific preference vector,
which is piecewise-stationary with asynchronous and distinct changes across
different arms. An efficient learning algorithm that is adaptive to abrupt
reward changes is proposed and theoretical regret analysis is provided to show
that a sublinear scaling of regret in the time length $T$ is achieved. The
algorithm is further extended to a more general setting with hybrid payoffs
where the reward of playing an arm is determined by both an arm-specific
preference vector and a joint coefficient vector shared by all arms. Empirical
experiments are conducted on real-world datasets to verify the advantages of
the proposed learning algorithms against baseline ones in both settings.
- Abstract(参考訳): コンテキストバンディット問題は,ユーザの時間的利害関係から,様々なレコメンデーションシステムにおいてユビキタスである非定常環境において研究されている。
切り離しとハイブリッドペイオフの2つのモデルでは,異なる項目に対するユーザの嗜好が時間とともに異なる現象を特徴付けると考えられる。
相反するペイオフモデルでは、腕を弾く報酬は腕固有の選好ベクトルによって決定される。
突発的な報酬変化に適応する効率的な学習アルゴリズムを提案し、理論的後悔分析を行い、時間長$T$における後悔のサブ線形スケーリングが達成されることを示す。
このアルゴリズムはさらに、腕固有の選好ベクトルと全腕で共有される関節係数ベクトルによって腕の演奏報酬が決定されるハイブリッドペイオフによるより一般的な設定に拡張される。
実世界のデータセット上で実証実験を行い、両方の設定におけるベースラインに対する学習アルゴリズムの利点を検証する。
関連論文リスト
- Contextual Bandits with Arm Request Costs and Delays [19.263086804406786]
本稿では,時間的遅延と関連するコストを伴って,新たなアームセットを要求できるコンテキスト的バンディット問題の拡張を提案する。
この設定では、学習者は、各選択が1つの時間単位を取るように、決定セットから複数のアームを選択することができる。
我々は、武器を効果的に選択し、新しい武器を要求する適切な時間を決定するアルゴリズムを設計し、彼らの後悔を最小限に抑える。
論文 参考訳(メタデータ) (2024-10-17T00:44:50Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Piecewise-Stationary Combinatorial Semi-Bandit with Causally Related
Rewards [5.347237827669861]
本稿では,因果関係の報酬を用いた定常半帯域問題について検討する。
非定常環境では、ベースアームの分布の変化、報酬間の因果関係、またはその両方が報酬生成プロセスを変化させる。
この問題は半帯域設定で増加し、意思決定者は選択したアームの束の結果のみを観察する。
論文 参考訳(メタデータ) (2023-07-26T12:06:13Z) - Stability-penalty-adaptive follow-the-regularized-leader: Sparsity,
game-dependency, and best-of-both-worlds [46.30750729936261]
FTRL(Follow-the-regularized-leader)は近年,バンドイット問題における適応性獲得の最も有望なアプローチの1つである。
我々は3種類の適応性を持ついくつかのアルゴリズムを確立する:空間性、ゲーム依存性、およびベスト・オブ・ボス・ワールド(BOBW)である。
論文 参考訳(メタデータ) (2023-05-26T23:20:48Z) - Piecewise-Stationary Multi-Objective Multi-Armed Bandit with Application
to Joint Communications and Sensing [7.0997346625024]
本稿では,この問題を解決するために,変化検出を用いた汎用上信頼境界(UCB)に基づくアルゴリズムを提案する。
また,統合通信・センシングシステムにおけるエネルギー効率のよい波形設計問題を玩具の例として定式化する。
論文 参考訳(メタデータ) (2023-02-10T14:10:14Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。