論文の概要: Cache-Aware Reinforcement Learning in Large-Scale Recommender Systems
- arxiv url: http://arxiv.org/abs/2404.14961v1
- Date: Tue, 23 Apr 2024 12:06:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:11:34.430929
- Title: Cache-Aware Reinforcement Learning in Large-Scale Recommender Systems
- Title(参考訳): 大規模レコメンダシステムにおけるキャッシュ対応強化学習
- Authors: Xiaoshuang Chen, Gengrui Zhang, Yao Wang, Yulin Wu, Shuo Su, Kaiqiao Zhan, Ben Wang,
- Abstract要約: キャッシュ対応強化学習(CARL)は、リアルタイム計算とキャッシュによる推薦を協調的に最適化する手法である。
CARLは、結果キャッシュを考慮すると、ユーザのエンゲージメントを大幅に改善できる。
CARLはKwaiアプリで完全にローンチされ、1億人以上のユーザーにサービスを提供している。
- 参考スコア(独自算出の注目度): 10.52021139266752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large-scale recommender systems are built upon computation-intensive infrastructure and usually suffer from a huge difference in traffic between peak and off-peak periods. In peak periods, it is challenging to perform real-time computation for each request due to the limited budget of computational resources. The recommendation with a cache is a solution to this problem, where a user-wise result cache is used to provide recommendations when the recommender system cannot afford a real-time computation. However, the cached recommendations are usually suboptimal compared to real-time computation, and it is challenging to determine the items in the cache for each user. In this paper, we provide a cache-aware reinforcement learning (CARL) method to jointly optimize the recommendation by real-time computation and by the cache. We formulate the problem as a Markov decision process with user states and a cache state, where the cache state represents whether the recommender system performs recommendations by real-time computation or by the cache. The computational load of the recommender system determines the cache state. We perform reinforcement learning based on such a model to improve user engagement over multiple requests. Moreover, we show that the cache will introduce a challenge called critic dependency, which deteriorates the performance of reinforcement learning. To tackle this challenge, we propose an eigenfunction learning (EL) method to learn independent critics for CARL. Experiments show that CARL can significantly improve the users' engagement when considering the result cache. CARL has been fully launched in Kwai app, serving over 100 million users.
- Abstract(参考訳): 現代の大規模リコメンデータシステムは計算集約的なインフラ上に構築されており、通常ピーク時とオフピーク時のトラフィックに大きな差がある。
ピーク時には,計算資源の予算が限られているため,各要求に対してリアルタイムな計算を行うことが困難である。
キャッシュによるリコメンデーションはこの問題の解決策であり、ユーザ側の結果キャッシュは、レコメンダシステムがリアルタイムの計算に余裕がない場合にレコメンデーションを提供するために使用される。
しかし、キャッシュされたレコメンデーションは、通常、リアルタイムの計算よりも亜最適であり、各ユーザのキャッシュ内のアイテムを決定することは困難である。
本稿では,キャッシュを考慮した強化学習(CARL)手法を提案する。
ユーザの状態とキャッシュ状態によってマルコフ決定プロセスとして問題を定式化し、キャッシュ状態は、推奨システムがリアルタイム計算やキャッシュによってレコメンデーションを行うかどうかを表す。
レコメンデータシステムの計算負荷がキャッシュ状態を決定する。
このようなモデルに基づいて強化学習を行い、複数のリクエストに対するユーザエンゲージメントを改善する。
さらに、キャッシュは、強化学習の性能を劣化させる「批判依存」と呼ばれる課題を導入することを示します。
この課題に対処するため、我々はCARLの独立評論家を学習するための固有関数学習(EL)手法を提案する。
実験により、CARLは結果キャッシュを考慮した場合、ユーザのエンゲージメントを大幅に改善できることが示された。
CARLはKwaiアプリで完全にローンチされ、1億人以上のユーザーにサービスを提供している。
関連論文リスト
- A Learning-Based Caching Mechanism for Edge Content Delivery [2.412158290827225]
5GネットワークとIoT(Internet of Things)の台頭により、ネットワークのエッジはますます拡大している。
このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。
HR-Cacheは、ハザードレート(HR)順序付けの原則に基づく学習ベースのキャッシュフレームワークである。
論文 参考訳(メタデータ) (2024-02-05T08:06:03Z) - Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。
これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。
この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文 参考訳(メタデータ) (2023-10-20T15:01:55Z) - Improving information retention in large scale online continual learning [99.73847522194549]
オンライン連続学習は、既存の知識を維持しながら、新しいデータに効率的に適応することを目的としている。
最近の研究は、リプレイバッファが無制限であっても、大規模なOCLでは情報保持が問題であり続けていることを示唆している。
非定常目標に対する最適化を改善するため,移動平均の手法群を提案する。
論文 参考訳(メタデータ) (2022-10-12T16:59:43Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - ARCH: Efficient Adversarial Regularized Training with Caching [91.74682538906691]
逆正則化は、多くの自然言語処理タスクにおけるモデル一般化を改善することができる。
本稿では,複数のエポック毎に摂動を発生・キャッシュする新たな逆正則化手法ARCHを提案する。
提案手法をニューラルネットワーク翻訳と自然言語理解タスクのセットで評価する。
論文 参考訳(メタデータ) (2021-09-15T02:05:37Z) - Learning from Images: Proactive Caching with Parallel Convolutional
Neural Networks [94.85780721466816]
本稿では,プロアクティブキャッシングのための新しいフレームワークを提案する。
モデルベースの最適化とデータ駆動技術を組み合わせて、最適化問題をグレースケールのイメージに変換する。
数値計算の結果,提案手法は71.6%の計算時間を0.8%のコストで削減できることがわかった。
論文 参考訳(メタデータ) (2021-08-15T21:32:47Z) - Online Caching with Optimal Switching Regret [10.447270433913134]
限られたストレージ容量のキャッシュは、大きなカタログから一度に$c$ファイルを保持することができる。
キャッシュヒットの場合、ポリシーは単位報酬を受け取り、それ以外は報酬を受け取らない。
目的は、キャッシュヒットによる報酬とファイルフェッチによる切り替えコストの両方を考慮して、最小限の後悔を招くキャッシュポリシーを設計することである。
論文 参考訳(メタデータ) (2021-01-18T12:47:22Z) - Cache Replacement as a MAB with Delayed Feedback and Decaying Costs [4.358626952482686]
我々は、よく知られたマルチアームバンディット(MAB)の新しい変種を提案し、解決する。
各アームは異なるキャッシュ置換ポリシーを表しており、必要に応じてキャッシュから削除するようページ上でアドバイスする。
適応型強化学習アルゴリズムEXP4-DFDCを導入する。
論文 参考訳(メタデータ) (2020-09-23T18:26:48Z) - Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。
コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。
本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T01:23:51Z) - Artificial Intelligence Assisted Collaborative Edge Caching in Small
Cell Networks [19.605382256630538]
本稿では、エッジノードにおける異種キャッシュモデルを持つユーザの異種コンテンツ嗜好について考察する。
複雑な制約問題を妥当な時間で効率的に解決する修正粒子群最適化(M-PSO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T10:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。