論文の概要: Bayesian Linear Bandits for Large-Scale Recommender Systems
- arxiv url: http://arxiv.org/abs/2202.03167v1
- Date: Mon, 7 Feb 2022 13:51:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 14:33:55.334475
- Title: Bayesian Linear Bandits for Large-Scale Recommender Systems
- Title(参考訳): 大規模レコメンダシステムのためのベイズ線形帯域
- Authors: Saeed Ghoorchian, Setareh Maghsudi
- Abstract要約: この問題に対処するために,線形コンテキスト多重武装バンディットフレームワークを構築した。
提案するリコメンデータシステムは,オンライン上でユーザの項目選好を学習し,ランタイムを極力低くする。
数値評価には,提案アルゴリズムを用いて推薦システムを構築し,実世界のデータセットに適用する。
- 参考スコア(独自算出の注目度): 7.0997346625024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Potentially, taking advantage of available side information boosts the
performance of recommender systems; nevertheless, with the rise of big data,
the side information has often several dimensions. Hence, it is imperative to
develop decision-making algorithms that can cope with such a high-dimensional
context in real-time. That is especially challenging when the decision-maker
has a variety of items to recommend. In this paper, we build upon the linear
contextual multi-armed bandit framework to address this problem. We develop a
decision-making policy for a linear bandit problem with high-dimensional
context vectors and several arms. Our policy employs Thompson sampling and
feeds it with reduced context vectors, where the dimensionality reduction
follows by random projection. Our proposed recommender system follows this
policy to learn online the item preferences of users while keeping its runtime
as low as possible. We prove a regret bound that scales as a factor of the
reduced dimension instead of the original one. For numerical evaluation, we use
our algorithm to build a recommender system and apply it to real-world
datasets. The theoretical and numerical results demonstrate the effectiveness
of our proposed algorithm compared to the state-of-the-art in terms of
computational complexity and regret performance.
- Abstract(参考訳): 場合によっては、利用可能なサイド情報を活用することで、レコメンダシステムのパフォーマンスが向上します。
したがって、このような高次元コンテキストをリアルタイムに処理できる意思決定アルゴリズムを開発することが不可欠である。
これは、意思決定者が推奨すべきさまざまな項目がある場合、特に難しい。
本稿では,この問題を解決するために,線形コンテキスト型マルチアームバンディットフレームワークを構築した。
我々は高次元の文脈ベクトルと複数のアームを持つ線形帯域問題に対する意思決定ポリシーを開発する。
我々の方針はトンプソンサンプリングを採用し、文脈ベクトルを減らし、そこで次元の減少はランダムな投影によって従う。
提案するリコメンデータシステムは,ユーザの項目選択をオンラインで学習すると同時に,ランタイムを可能な限り低く維持する。
我々は、元の次元ではなく縮小次元の因子としてスケールする後悔の境界を証明する。
数値評価には,提案アルゴリズムを用いて推薦システムを構築し,実世界のデータセットに適用する。
理論的および数値的な結果から,提案アルゴリズムの有効性を計算複雑性と後悔性能の観点から比較した。
関連論文リスト
- A Recommendation Model Utilizing Separation Embedding and Self-Attention for Feature Mining [7.523158123940574]
レコメンデーションシステムは、ユーザのニーズを満たすコンテンツをユーザに提供します。
従来のクリックスルーレート予測とTOP-Kレコメンデーションメカニズムはレコメンデーションのニーズを満たすことができない。
本稿では,ネットワーク間の分離に基づくレコメンデーションシステムモデルを提案する。
論文 参考訳(メタデータ) (2024-10-19T07:49:21Z) - Scalable Dynamic Embedding Size Search for Streaming Recommendation [54.28404337601801]
実世界のレコメンデーションシステムは、しばしばストリーミングレコメンデーションシナリオで機能する。
ユーザやアイテムの数は増加を続けており、かなりのストレージリソース消費につながっている。
SCALLと呼ばれるストリーミングレコメンデーション用のLightweight Embeddingsを学び、ユーザ/イテムの埋め込みサイズを適応的に調整できる。
論文 参考訳(メタデータ) (2024-07-22T06:37:24Z) - Dynamic Embedding Size Search with Minimum Regret for Streaming
Recommender System [39.78277554870799]
同一かつ静的な埋め込みサイズの設定は、推奨性能とメモリコストの面で準最適であることを示す。
非定常的な方法でユーザ側とアイテム側の埋め込みサイズ選択を最小化する手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T13:27:18Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Fast Offline Policy Optimization for Large Scale Recommendation [74.78213147859236]
我々は、カタログサイズと対数的にスケールするこれらのポリシー学習アルゴリズムの近似を導出する。
私たちの貢献は3つの新しいアイデアの組み合わせに基づいている。
我々の推定器は、単純なアプローチよりも桁違いに速いが、等しく良いポリシーを生成する。
論文 参考訳(メタデータ) (2022-08-08T11:54:11Z) - Contextual Bandits with Smooth Regret: Efficient Learning in Continuous
Action Spaces [14.366265951396587]
我々は、大規模または連続的なアクション空間に対する効率的な汎用的コンテキスト帯域幅アルゴリズムを設計する。
本稿では,従来提案されていた代替案に支配的な文脈的包帯に対して,スムーズな後悔の念を抱く概念を提案する。
我々のアルゴリズムは、標準的な後悔の下で以前のminimax/Paretoの最適保証を回復するために使用することができる。
論文 参考訳(メタデータ) (2022-07-12T21:27:09Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Learning User Preferences in Non-Stationary Environments [42.785926822853746]
オンラインノンステーショナリーレコメンデーションシステムのための新しいモデルを紹介します。
好みが変化しない場合でも,我々のアルゴリズムが他の静的アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-29T10:26:16Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z) - Learning from eXtreme Bandit Feedback [105.0383130431503]
非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。
本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。
我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
論文 参考訳(メタデータ) (2020-09-27T20:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。