Fugu-MT 論文翻訳(概要): Cache-Aware Reinforcement Learning in Large-Scale Recommender Systems

論文の概要: Cache-Aware Reinforcement Learning in Large-Scale Recommender Systems

arxiv url: http://arxiv.org/abs/2404.14961v1
Date: Tue, 23 Apr 2024 12:06:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 14:11:34.430929
Title: Cache-Aware Reinforcement Learning in Large-Scale Recommender Systems
Title（参考訳）: 大規模レコメンダシステムにおけるキャッシュ対応強化学習
Authors: Xiaoshuang Chen, Gengrui Zhang, Yao Wang, Yulin Wu, Shuo Su, Kaiqiao Zhan, Ben Wang,
Abstract要約: キャッシュ対応強化学習(CARL)は、リアルタイム計算とキャッシュによる推薦を協調的に最適化する手法である。 CARLは、結果キャッシュを考慮すると、ユーザのエンゲージメントを大幅に改善できる。 CARLはKwaiアプリで完全にローンチされ、1億人以上のユーザーにサービスを提供している。
参考スコア（独自算出の注目度）: 10.52021139266752
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern large-scale recommender systems are built upon computation-intensive infrastructure and usually suffer from a huge difference in traffic between peak and off-peak periods. In peak periods, it is challenging to perform real-time computation for each request due to the limited budget of computational resources. The recommendation with a cache is a solution to this problem, where a user-wise result cache is used to provide recommendations when the recommender system cannot afford a real-time computation. However, the cached recommendations are usually suboptimal compared to real-time computation, and it is challenging to determine the items in the cache for each user. In this paper, we provide a cache-aware reinforcement learning (CARL) method to jointly optimize the recommendation by real-time computation and by the cache. We formulate the problem as a Markov decision process with user states and a cache state, where the cache state represents whether the recommender system performs recommendations by real-time computation or by the cache. The computational load of the recommender system determines the cache state. We perform reinforcement learning based on such a model to improve user engagement over multiple requests. Moreover, we show that the cache will introduce a challenge called critic dependency, which deteriorates the performance of reinforcement learning. To tackle this challenge, we propose an eigenfunction learning (EL) method to learn independent critics for CARL. Experiments show that CARL can significantly improve the users' engagement when considering the result cache. CARL has been fully launched in Kwai app, serving over 100 million users.
Abstract（参考訳）: 現代の大規模リコメンデータシステムは計算集約的なインフラ上に構築されており、通常ピーク時とオフピーク時のトラフィックに大きな差がある。ピーク時には,計算資源の予算が限られているため,各要求に対してリアルタイムな計算を行うことが困難である。キャッシュによるリコメンデーションはこの問題の解決策であり、ユーザ側の結果キャッシュは、レコメンダシステムがリアルタイムの計算に余裕がない場合にレコメンデーションを提供するために使用される。しかし、キャッシュされたレコメンデーションは、通常、リアルタイムの計算よりも亜最適であり、各ユーザのキャッシュ内のアイテムを決定することは困難である。本稿では,キャッシュを考慮した強化学習(CARL)手法を提案する。ユーザの状態とキャッシュ状態によってマルコフ決定プロセスとして問題を定式化し、キャッシュ状態は、推奨システムがリアルタイム計算やキャッシュによってレコメンデーションを行うかどうかを表す。レコメンデータシステムの計算負荷がキャッシュ状態を決定する。このようなモデルに基づいて強化学習を行い、複数のリクエストに対するユーザエンゲージメントを改善する。さらに、キャッシュは、強化学習の性能を劣化させる「批判依存」と呼ばれる課題を導入することを示します。この課題に対処するため、我々はCARLの独立評論家を学習するための固有関数学習(EL)手法を提案する。実験により、CARLは結果キャッシュを考慮した場合、ユーザのエンゲージメントを大幅に改善できることが示された。 CARLはKwaiアプリで完全にローンチされ、1億人以上のユーザーにサービスを提供している。

関連論文リスト

A Generative Caching System for Large Language Models [1.2132389187658934]
キャッシングは、大きな言語モデル(LLM)にアクセスする上で、大きなメリットをもたらす可能性がある。本稿では,LLMを用いたユーザエクスペリエンス向上のための新しいキャッシングシステムを提案する。生成キャッシングでは、複数のキャッシュされたレスポンスを合成して、これまで見たことのないクエリに対する回答を提供することができます。
論文参考訳（メタデータ） (2025-03-22T01:17:56Z)
Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。 Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文参考訳（メタデータ） (2024-10-04T01:11:09Z)
RPAF: A Reinforcement Prediction-Allocation Framework for Cache Allocation in Large-Scale Recommender Systems [22.87458184871264]
本稿では,キャッシュアロケーションにおける2つの重要な課題,すなわち,バリューストラテジー依存とストリーミングアロケーションを示す。これらの問題に対処するための強化予測割当フレームワーク(RPAF)を提案する。 RPAFは、予測とアロケーション段階を含む強化学習ベースの2段階フレームワークである。
論文参考訳（メタデータ） (2024-09-20T03:02:42Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文参考訳（メタデータ） (2024-05-24T08:16:22Z)
Recommenadation aided Caching using Combinatorial Multi-armed Bandits [0.06554326244334867]
本研究では,有限容量キャッシュを備えた基地局を介してユーザが接続する無線ネットワークにおいて,コンテントキャッシュとレコメンデーションを併用したコンテントキャッシュについて検討する。本アルゴリズムでは,どのコンテンツをキャッシュするかを判定し,提案するUCBアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-04-30T16:35:08Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
Improving information retention in large scale online continual learning [99.73847522194549]
オンライン連続学習は、既存の知識を維持しながら、新しいデータに効率的に適応することを目的としている。最近の研究は、リプレイバッファが無制限であっても、大規模なOCLでは情報保持が問題であり続けていることを示唆している。非定常目標に対する最適化を改善するため,移動平均の手法群を提案する。
論文参考訳（メタデータ） (2022-10-12T16:59:43Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)
ARCH: Efficient Adversarial Regularized Training with Caching [91.74682538906691]
逆正則化は、多くの自然言語処理タスクにおけるモデル一般化を改善することができる。本稿では,複数のエポック毎に摂動を発生・キャッシュする新たな逆正則化手法ARCHを提案する。提案手法をニューラルネットワーク翻訳と自然言語理解タスクのセットで評価する。
論文参考訳（メタデータ） (2021-09-15T02:05:37Z)
Cache Replacement as a MAB with Delayed Feedback and Decaying Costs [4.358626952482686]
我々は、よく知られたマルチアームバンディット(MAB)の新しい変種を提案し、解決する。各アームは異なるキャッシュ置換ポリシーを表しており、必要に応じてキャッシュから削除するようページ上でアドバイスする。適応型強化学習アルゴリズムEXP4-DFDCを導入する。
論文参考訳（メタデータ） (2020-09-23T18:26:48Z)
Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文参考訳（メタデータ） (2020-05-19T01:23:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。