論文の概要: RPAF: A Reinforcement Prediction-Allocation Framework for Cache Allocation in Large-Scale Recommender Systems
- arxiv url: http://arxiv.org/abs/2409.13175v1
- Date: Fri, 20 Sep 2024 03:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 11:29:51.859805
- Title: RPAF: A Reinforcement Prediction-Allocation Framework for Cache Allocation in Large-Scale Recommender Systems
- Title(参考訳): RPAF:大規模リコメンダシステムにおけるキャッシュ割り当てのための強化予測アロケーションフレームワーク
- Authors: Shuo Su, Xiaoshuang Chen, Yao Wang, Yulin Wu, Ziqiang Zhang, Kaiqiao Zhan, Ben Wang, Kun Gai,
- Abstract要約: 本稿では,キャッシュアロケーションにおける2つの重要な課題,すなわち,バリューストラテジー依存とストリーミングアロケーションを示す。
これらの問題に対処するための強化予測割当フレームワーク(RPAF)を提案する。
RPAFは、予測とアロケーション段階を含む強化学習ベースの2段階フレームワークである。
- 参考スコア(独自算出の注目度): 22.87458184871264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern recommender systems are built upon computation-intensive infrastructure, and it is challenging to perform real-time computation for each request, especially in peak periods, due to the limited computational resources. Recommending by user-wise result caches is widely used when the system cannot afford a real-time recommendation. However, it is challenging to allocate real-time and cached recommendations to maximize the users' overall engagement. This paper shows two key challenges to cache allocation, i.e., the value-strategy dependency and the streaming allocation. Then, we propose a reinforcement prediction-allocation framework (RPAF) to address these issues. RPAF is a reinforcement-learning-based two-stage framework containing prediction and allocation stages. The prediction stage estimates the values of the cache choices considering the value-strategy dependency, and the allocation stage determines the cache choices for each individual request while satisfying the global budget constraint. We show that the challenge of training RPAF includes globality and the strictness of budget constraints, and a relaxed local allocator (RLA) is proposed to address this issue. Moreover, a PoolRank algorithm is used in the allocation stage to deal with the streaming allocation problem. Experiments show that RPAF significantly improves users' engagement under computational budget constraints.
- Abstract(参考訳): 現代のリコメンデータシステムは計算集約的なインフラ上に構築されており、計算資源が限られているため、特にピーク時に各要求に対してリアルタイムな計算を行うことは困難である。
ユーザ側のキャッシュによるリコメンデーションは、リアルタイムのレコメンデーションができない場合に広く使用される。
しかし、ユーザ全体のエンゲージメントを最大化するために、リアルタイムおよびキャッシュされたレコメンデーションを割り当てることは困難である。
本稿では,キャッシュアロケーションにおける2つの重要な課題,すなわち,バリューストラテジー依存とストリーミングアロケーションを示す。
そこで我々は,これらの問題に対処する強化予測割当フレームワーク(RPAF)を提案する。
RPAFは、予測とアロケーション段階を含む強化学習ベースの2段階フレームワークである。
予測段階は、値戦略依存性を考慮したキャッシュ選択の値を推定し、割り当て段階は、グローバルな予算制約を満たしつつ、各要求に対するキャッシュ選択を決定する。
RPAF訓練の課題には, グローバル性と予算制約の厳格性が含まれており, この問題に対処するための緩やかなローカルアロケータ (RLA) が提案されている。
さらに、ストリーミングアロケーション問題に対処するために、アロケーションステージでPoolRankアルゴリズムが使用される。
実験の結果,RPAFは計算予算制約下でのユーザのエンゲージメントを大幅に改善することがわかった。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Cache-Aware Reinforcement Learning in Large-Scale Recommender Systems [10.52021139266752]
キャッシュ対応強化学習(CARL)は、リアルタイム計算とキャッシュによる推薦を協調的に最適化する手法である。
CARLは、結果キャッシュを考慮すると、ユーザのエンゲージメントを大幅に改善できる。
CARLはKwaiアプリで完全にローンチされ、1億人以上のユーザーにサービスを提供している。
論文 参考訳(メタデータ) (2024-04-23T12:06:40Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z) - Joint Service Caching, Communication and Computing Resource Allocation in Collaborative MEC Systems: A DRL-based Two-timescale Approach [15.16859210403316]
端末の厳格なQuality of Service(QoS)要件を満たすため、Multi Access Edge Computing(MEC)システムに課題が課されている。
エッジサーバ間のリソース共有を容易にする協調的なフレームワークを提案する。
提案アルゴリズムは,平均スイッチングおよびキャッシュコストにおいて,ベースラインアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-19T00:27:49Z) - A Bandit Approach to Online Pricing for Heterogeneous Edge Resource
Allocation [8.089950414444115]
ヘテロジニアスなエッジリソース割り当てのための2つの新しいオンライン価格設定機構が提案されている。
このメカニズムはリアルタイムで動作し、需要分布に関する事前の知識を必要としない。
提案した価格体系では, 利用者が好みのリソースを選択し, 支払うことができ, 観測された履歴データに基づいて動的に資源価格を調整できる。
論文 参考訳(メタデータ) (2023-02-14T10:21:14Z) - Online Caching with no Regret: Optimistic Learning via Recommendations [15.877673959068458]
ファイル要求の予測を含むFTRL(Follow-the-Regularized-Leader)フレームワークを構築した。
フレームワークを拡張して、多くが利用可能な場合に最適な要求予測器を学習し、利用します。
提案した楽観的な学習キャッシュポリシが,完全予測のためのサブゼロ性能損失(regret)を達成できることを実証する。
論文 参考訳(メタデータ) (2022-04-20T09:29:47Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - Distributed Reinforcement Learning for Privacy-Preserving Dynamic Edge
Caching [91.50631418179331]
MECネットワークにおけるデバイスのキャッシュヒット率を最大化するために,プライバシ保護型分散ディープポリシー勾配(P2D3PG)を提案する。
分散最適化をモデルフリーなマルコフ決定プロセス問題に変換し、人気予測のためのプライバシー保護フェデレーション学習手法を導入する。
論文 参考訳(メタデータ) (2021-10-20T02:48:27Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。