論文の概要: HyperBandit: Contextual Bandit with Hypernewtork for Time-Varying User
Preferences in Streaming Recommendation
- arxiv url: http://arxiv.org/abs/2308.08497v1
- Date: Mon, 14 Aug 2023 14:04:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 12:37:24.487597
- Title: HyperBandit: Contextual Bandit with Hypernewtork for Time-Varying User
Preferences in Streaming Recommendation
- Title(参考訳): HyperBandit: ストリームレコメンデーションにおける時間変化ユーザ優先のためのHypernewtork付きコンテキストバンド
- Authors: Chenglei Shen, Xiao Zhang, Wei Wei, Jun Xu
- Abstract要約: 既存のストリーミングレコメンデータモデルはタイムスタンプとしてのみ考慮している。
我々はHyperBanditと呼ばれるハイパーネットワークを用いたコンテキスト的バンディット手法を提案する。
提案したHyperBanditは、蓄積された報酬の観点から、最先端のベースラインを一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 11.908362247624131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world streaming recommender systems, user preferences often
dynamically change over time (e.g., a user may have different preferences
during weekdays and weekends). Existing bandit-based streaming recommendation
models only consider time as a timestamp, without explicitly modeling the
relationship between time variables and time-varying user preferences. This
leads to recommendation models that cannot quickly adapt to dynamic scenarios.
To address this issue, we propose a contextual bandit approach using
hypernetwork, called HyperBandit, which takes time features as input and
dynamically adjusts the recommendation model for time-varying user preferences.
Specifically, HyperBandit maintains a neural network capable of generating the
parameters for estimating time-varying rewards, taking into account the
correlation between time features and user preferences. Using the estimated
time-varying rewards, a bandit policy is employed to make online
recommendations by learning the latent item contexts. To meet the real-time
requirements in streaming recommendation scenarios, we have verified the
existence of a low-rank structure in the parameter matrix and utilize low-rank
factorization for efficient training. Theoretically, we demonstrate a sublinear
regret upper bound against the best policy. Extensive experiments on real-world
datasets show that the proposed HyperBandit consistently outperforms the
state-of-the-art baselines in terms of accumulated rewards.
- Abstract(参考訳): 実世界のストリーミングレコメンデーションシステムでは、ユーザの好みはしばしば時間とともに動的に変化する(例えば、平日と週末にユーザが異なる好みを持つ)。
既存のbanditベースのストリーミングレコメンデーションモデルは、時間変数とユーザの好みの関係を明示的にモデル化することなく、タイムスタンプとしてのみ時間を考慮する。
これにより、動的シナリオに迅速に適応できないレコメンデーションモデルが生まれます。
この問題に対処するために,HyperBanditと呼ばれるハイパーネットワークを用いたコンテキスト的帯域幅アプローチを提案する。
具体的には、HyperBanditは、時間的特徴とユーザの好みの相関を考慮して、時間的変化の報酬を推定するためのパラメータを生成することができるニューラルネットワークを維持している。
推定された時間変動報酬を使用して、潜在アイテムコンテキストを学習してオンラインレコメンデーションを作成するために、バンディットポリシーが使用される。
ストリーミングレコメンデーションシナリオにおけるリアルタイム要求を満たすために,パラメータ行列における低ランク構造の存在を検証し,効率的なトレーニングに低ランク分解を利用する。
理論的には、最善策に対するサブリニアな後悔の上限を示す。
実世界のデータセットに関する広範囲な実験により、提案されたhyperbanditは、累積報酬の点で最先端のベースラインを一貫して上回っていることが示された。
関連論文リスト
- Sequential Recommendation on Temporal Proximities with Contrastive
Learning and Self-Attention [3.7182810519704095]
逐次リコメンデータシステムは、過去のインタラクションからユーザの好みを識別し、後続の項目を最適に予測する。
最近のモデルでは、類似の時間枠中に暗黙的に発生するユーザの行動の類似性を無視することが多い。
本稿では,時間的近接性を考慮したコントラスト学習と自己認識手法を含む,TemProxRecという逐次レコメンデーションモデルを提案する。
論文 参考訳(メタデータ) (2024-02-15T08:33:16Z) - Attention Mixtures for Time-Aware Sequential Recommendation [10.017195276758454]
トランスフォーマーはシーケンシャルなレコメンデーションのための強力な方法として登場した。
改良された Transformer シーケンシャルレコメンデータシステムである MOJITO を導入する。
いくつかの実世界のデータセットで逐次レコメンデーションを行うために、既存のTransformerを実証的に上回ることによって、我々のアプローチの妥当性を実証する。
論文 参考訳(メタデータ) (2023-04-17T11:11:19Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Time-aware Hyperbolic Graph Attention Network for Session-based
Recommendation [58.748215444851226]
セッションベースのレコメンデーション(SBR、Session-based Recommendation)は、ユーザの次の関心項目を以前のブラウジングセッションに基づいて予測することである。
時間情報を考慮したセッションベースレコメンデーションモデルを構築するために,TA-HGAT(Time-Aware Hyperbolic Graph Attention Network)を提案する。
論文 参考訳(メタデータ) (2023-01-10T04:16:09Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - Modeling Dynamic User Preference via Dictionary Learning for Sequential
Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。
浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。
本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文 参考訳(メタデータ) (2022-04-02T03:23:46Z) - Syndicated Bandits: A Framework for Auto Tuning Hyper-parameters in
Contextual Bandit Algorithms [74.55200180156906]
文脈的盗賊問題は、探索と搾取の間のトレードオフをモデル化する。
我々のSyndicated Banditsフレームワークは最適な後悔の上限を達成できることを示す。
論文 参考訳(メタデータ) (2021-06-05T22:30:21Z) - Learning Heterogeneous Temporal Patterns of User Preference for Timely
Recommendation [15.930016839929047]
我々はTimelyRecと呼ばれるタイムリーなレコメンデーションのための新しいレコメンデーションシステムを提案する。
TimelyRecでは、2つのエンコーダのカスケードが、各エンコーダに対して提案されたアテンションモジュールを使用して、ユーザの好みの時間パターンをキャプチャする。
実世界のデータセットにおける項目推薦シナリオと項目決定推薦シナリオの実験により,timelyrecの優位性が示された。
論文 参考訳(メタデータ) (2021-04-29T08:37:30Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。