論文の概要: ERCache: An Efficient and Reliable Caching Framework for Large-Scale User Representations in Meta's Ads System
- arxiv url: http://arxiv.org/abs/2410.06497v1
- Date: Wed, 9 Oct 2024 02:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 05:18:55.555521
- Title: ERCache: An Efficient and Reliable Caching Framework for Large-Scale User Representations in Meta's Ads System
- Title(参考訳): ERCache:Metaの広告システムにおける大規模ユーザ表現のための効率的で信頼性の高いキャッシングフレームワーク
- Authors: Fang Zhou, Yaning Huang, Dong Liang, Dai Li, Zhongke Zhang, Kai Wang, Xiao Xin, Abdallah Aboelela, Zheliang Jiang, Yang Wang, Jeff Song, Wei Zhang, Chen Liang, Huayu Li, ChongLin Sun, Hang Yang, Lei Qu, Zhan Shu, Mindi Yuan, Emanuele Maccherani, Taha Hayat, John Guo, Varna Puvvada, Uladzimir Pashkevich,
- Abstract要約: ERCacheは、ソーシャルネットワーク上の広告レコメンデーションシステムにおいて、大規模ユーザ表現のための効率的で堅牢なキャッシュフレームワークである。
ERCacheは6ヶ月以上Metaにデプロイされ、30以上のランキングモデルをサポートする。
- 参考スコア(独自算出の注目度): 20.058668768238984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing complexity of deep learning models used for calculating user representations presents significant challenges, particularly with limited computational resources and strict service-level agreements (SLAs). Previous research efforts have focused on optimizing model inference but have overlooked a critical question: is it necessary to perform user model inference for every ad request in large-scale social networks? To address this question and these challenges, we first analyze user access patterns at Meta and find that most user model inferences occur within a short timeframe. T his observation reveals a triangular relationship among model complexity, embedding freshness, and service SLAs. Building on this insight, we designed, implemented, and evaluated ERCache, an efficient and robust caching framework for large-scale user representations in ads recommendation systems on social networks. ERCache categorizes cache into direct and failover types and applies customized settings and eviction policies for each model, effectively balancing model complexity, embedding freshness, and service SLAs, even considering the staleness introduced by caching. ERCache has been deployed at Meta for over six months, supporting more than 30 ranking models while efficiently conserving computational resources and complying with service SLA requirements.
- Abstract(参考訳): ユーザ表現の計算に使用されるディープラーニングモデルの複雑さの増大は、特に限られた計算リソースと厳しいサービスレベルの合意(SLA)において、大きな課題を呈している。
これまでの研究は、モデル推論の最適化に重点を置いてきたが、重要な問題として、大規模ソーシャルネットワークにおける広告要求毎にユーザーモデル推論を実行する必要があるか?
この問題とこれらの課題に対処するために、まずMetaでユーザアクセスパターンを分析し、ほとんどのユーザモデル推論が短い時間枠内で発生することを見つけます。
T氏の観察では、モデルの複雑さ、新鮮さの埋め込み、サービスSLAの間に三角形の関係が明らかになっている。
この知見に基づいて、当社は、ソーシャルネットワーク上の広告推薦システムにおいて、大規模ユーザ表現のための効率的で堅牢なキャッシュフレームワークであるERCacheを設計、実装、評価した。
ERCacheはキャッシュを直接型とフェイルオーバ型に分類し、各モデルにカスタマイズされた設定と終了ポリシーを適用し、キャッシュによって導入された不安定さを考慮しても、モデルの複雑さ、新鮮さの埋め込み、サービスSLAを効果的にバランスさせる。
ERCacheは6ヶ月以上Metaにデプロイされ、30以上のランキングモデルをサポートし、計算リソースを効率的に保存し、サービスSLA要件に準拠している。
関連論文リスト
- Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。
評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文 参考訳(メタデータ) (2024-05-24T08:16:22Z) - TrimCaching: Parameter-sharing AI Model Caching in Wireless Edge Networks [36.39118138582416]
次世代のモバイルネットワークは、エンドユーザへの高速なAIモデルダウンロードを容易にすることが期待されている。
エッジサーバにモデルをキャッシュすることで、モバイルネットワークは、低レイテンシでエンドユーザにモデルを配信することができる。
我々はパラメータ共有モデルキャッシング(TrimCaching)と呼ばれる新しいモデル配置方式を開発する。
論文 参考訳(メタデータ) (2024-05-07T04:08:49Z) - A Learning-Based Caching Mechanism for Edge Content Delivery [2.412158290827225]
5GネットワークとIoT(Internet of Things)の台頭により、ネットワークのエッジはますます拡大している。
このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。
HR-Cacheは、ハザードレート(HR)順序付けの原則に基づく学習ベースのキャッシュフレームワークである。
論文 参考訳(メタデータ) (2024-02-05T08:06:03Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - SQLNet: Scale-Modulated Query and Localization Network for Few-Shot
Class-Agnostic Counting [71.38754976584009]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。
我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。
クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文 参考訳(メタデータ) (2023-11-16T16:50:56Z) - Improving the Performance of DNN-based Software Services using Automated
Layer Caching [3.804240190982695]
ディープニューラルネットワーク(DNN)は、Webベースのサービスを含む多くのアプリケーションドメインにおいて、不可欠なコンポーネントとなっている。
このような大規模モデルの計算複雑性は依然として比較的重要であり、低推論遅延を妨げている。
本稿では,DNNベースのサービスの性能向上のためのエンドツーエンド自動ソリューションを提案する。
論文 参考訳(メタデータ) (2022-09-18T18:21:20Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。
コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。
本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T01:23:51Z) - Artificial Intelligence Assisted Collaborative Edge Caching in Small
Cell Networks [19.605382256630538]
本稿では、エッジノードにおける異種キャッシュモデルを持つユーザの異種コンテンツ嗜好について考察する。
複雑な制約問題を妥当な時間で効率的に解決する修正粒子群最適化(M-PSO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T10:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。