論文の概要: Bayesian Non-stationary Linear Bandits for Large-Scale Recommender
Systems
- arxiv url: http://arxiv.org/abs/2202.03167v2
- Date: Mon, 24 Jul 2023 22:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 21:48:53.608698
- Title: Bayesian Non-stationary Linear Bandits for Large-Scale Recommender
Systems
- Title(参考訳): 大規模レコメンダシステムのためのベイズ非定常線形帯域
- Authors: Saeed Ghoorchian, Evgenii Kortukov, Setareh Maghsudi
- Abstract要約: この問題に対処するために,線形コンテキスト多重武装バンディットフレームワークを構築した。
本研究では,高次元特徴ベクトルを用いた線形帯域問題に対する意思決定ポリシーを開発する。
提案するリコメンデータシステムは,実行環境を最小化しながら,ユーザの項目嗜好をオンラインで学習する。
- 参考スコア(独自算出の注目度): 6.009759445555003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Taking advantage of contextual information can potentially boost the
performance of recommender systems. In the era of big data, such side
information often has several dimensions. Thus, developing decision-making
algorithms to cope with such a high-dimensional context in real time is
essential. That is specifically challenging when the decision-maker has a
variety of items to recommend. In addition, changes in items' popularity or
users' preferences can hinder the performance of the deployed recommender
system due to a lack of robustness to distribution shifts in the environment.
In this paper, we build upon the linear contextual multi-armed bandit framework
to address this problem. We develop a decision-making policy for a linear
bandit problem with high-dimensional feature vectors, a large set of arms, and
non-stationary reward-generating processes. Our Thompson sampling-based policy
reduces the dimension of feature vectors using random projection and uses
exponentially increasing weights to decrease the influence of past observations
with time. Our proposed recommender system employs this policy to learn the
users' item preferences online while minimizing runtime. We prove a regret
bound that scales as a factor of the reduced dimension instead of the original
one. To evaluate our proposed recommender system numerically, we apply it to
three real-world datasets. The theoretical and numerical results demonstrate
the effectiveness of our proposed algorithm in making a trade-off between
computational complexity and regret performance compared to the
state-of-the-art.
- Abstract(参考訳): コンテキスト情報を活用することで、リコメンダシステムの性能が向上する可能性がある。
ビッグデータの時代において、そのような側情報はしばしばいくつかの次元を持つ。
したがって、そのような高次元コンテキストをリアルタイムに処理するための意思決定アルゴリズムの開発が不可欠である。
これは、意思決定者が推奨すべきさまざまな項目がある場合、特に難しい。
さらに、アイテムの人気やユーザの好みの変化は、環境の分散シフトに対する堅牢性が欠如しているため、デプロイされたレコメンダシステムのパフォーマンスを阻害する可能性がある。
本稿では,この問題を解決するために,線形コンテキスト型マルチアームバンディットフレームワークを構築した。
本研究では,高次元特徴ベクトル,大きなアームセット,非定常報酬生成プロセスを含む線形帯域問題に対する意思決定ポリシーを開発する。
我々のトンプソンサンプリングに基づく政策は、ランダムプロジェクションを用いて特徴ベクトルの次元を減少させ、指数関数的に増加する重みを使って過去の観測の影響を時間とともに減少させる。
提案するリコメンデータシステムは,実行環境を最小化しながら,ユーザの項目嗜好をオンラインで学習する。
我々は、元の次元ではなく縮小次元の因子としてスケールする後悔の境界を証明する。
提案手法を数値的に評価するために,実世界の3つのデータセットに適用する。
理論的および数値的な結果は,提案アルゴリズムが計算複雑性と後悔性能のトレードオフを行う上で,最先端技術と比較して有効であることを示す。
関連論文リスト
- A Recommendation Model Utilizing Separation Embedding and Self-Attention for Feature Mining [7.523158123940574]
レコメンデーションシステムは、ユーザのニーズを満たすコンテンツをユーザに提供します。
従来のクリックスルーレート予測とTOP-Kレコメンデーションメカニズムはレコメンデーションのニーズを満たすことができない。
本稿では,ネットワーク間の分離に基づくレコメンデーションシステムモデルを提案する。
論文 参考訳(メタデータ) (2024-10-19T07:49:21Z) - Scalable Dynamic Embedding Size Search for Streaming Recommendation [54.28404337601801]
実世界のレコメンデーションシステムは、しばしばストリーミングレコメンデーションシナリオで機能する。
ユーザやアイテムの数は増加を続けており、かなりのストレージリソース消費につながっている。
SCALLと呼ばれるストリーミングレコメンデーション用のLightweight Embeddingsを学び、ユーザ/イテムの埋め込みサイズを適応的に調整できる。
論文 参考訳(メタデータ) (2024-07-22T06:37:24Z) - Dynamic Embedding Size Search with Minimum Regret for Streaming
Recommender System [39.78277554870799]
同一かつ静的な埋め込みサイズの設定は、推奨性能とメモリコストの面で準最適であることを示す。
非定常的な方法でユーザ側とアイテム側の埋め込みサイズ選択を最小化する手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T13:27:18Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Fast Offline Policy Optimization for Large Scale Recommendation [74.78213147859236]
我々は、カタログサイズと対数的にスケールするこれらのポリシー学習アルゴリズムの近似を導出する。
私たちの貢献は3つの新しいアイデアの組み合わせに基づいている。
我々の推定器は、単純なアプローチよりも桁違いに速いが、等しく良いポリシーを生成する。
論文 参考訳(メタデータ) (2022-08-08T11:54:11Z) - Contextual Bandits with Smooth Regret: Efficient Learning in Continuous
Action Spaces [14.366265951396587]
我々は、大規模または連続的なアクション空間に対する効率的な汎用的コンテキスト帯域幅アルゴリズムを設計する。
本稿では,従来提案されていた代替案に支配的な文脈的包帯に対して,スムーズな後悔の念を抱く概念を提案する。
我々のアルゴリズムは、標準的な後悔の下で以前のminimax/Paretoの最適保証を回復するために使用することができる。
論文 参考訳(メタデータ) (2022-07-12T21:27:09Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Learning User Preferences in Non-Stationary Environments [42.785926822853746]
オンラインノンステーショナリーレコメンデーションシステムのための新しいモデルを紹介します。
好みが変化しない場合でも,我々のアルゴリズムが他の静的アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-29T10:26:16Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z) - Learning from eXtreme Bandit Feedback [105.0383130431503]
非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。
本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。
我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
論文 参考訳(メタデータ) (2020-09-27T20:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。