論文の概要: ElasticRec: A Microservice-based Model Serving Architecture Enabling Elastic Resource Scaling for Recommendation Models
- arxiv url: http://arxiv.org/abs/2406.06955v1
- Date: Tue, 11 Jun 2024 05:25:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 17:25:19.118008
- Title: ElasticRec: A Microservice-based Model Serving Architecture Enabling Elastic Resource Scaling for Recommendation Models
- Title(参考訳): ElasticRec: 推奨モデルのためのエラスティックリソーススケーリングを実現するマイクロサービスベースのモデルサービングアーキテクチャ
- Authors: Yujeong Choi, Jiin Kim, Minsoo Rhu,
- Abstract要約: ElasticRecはRecSysのアーキテクチャを提供するモデルである。
リソースの弾力性と高いメモリ効率を提供する。
メモリ割り当てサイズが平均3.3倍、メモリユーティリティが8.1倍向上する。
- 参考スコア(独自算出の注目度): 3.3339432744306277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing popularity of recommendation systems (RecSys), the demand for compute resources in datacenters has surged. However, the model-wise resource allocation employed in current RecSys model serving architectures falls short in effectively utilizing resources, leading to sub-optimal total cost of ownership. We propose ElasticRec, a model serving architecture for RecSys providing resource elasticity and high memory efficiency. ElasticRec is based on a microservice-based software architecture for fine-grained resource allocation, tailored to the heterogeneous resource demands of RecSys. Additionally, ElasticRec achieves high memory efficiency via our utility-based resource allocation. Overall, ElasticRec achieves an average 3.3x reduction in memory allocation size and 8.1x increase in memory utility, resulting in an average 1.6x reduction in deployment cost compared to state-of-the-art RecSys inference serving system.
- Abstract(参考訳): レコメンデーションシステム(RecSys)の普及に伴い、データセンタにおける計算リソースの需要が急増している。
しかし、現在のRecSysモデルサービスアーキテクチャで採用されているモデルワイドリソース割り当ては、リソースを効果的に活用するに足りず、最適以下の総所有コストにつながる。
本稿では,リソースの弾力性と高いメモリ効率を実現するRecSysのモデルであるElasticRecを提案する。
ElasticRecは、RecSysの異種リソース要求に合わせて、きめ細かいリソース割り当てのためのマイクロサービスベースのソフトウェアアーキテクチャに基づいている。
さらにElasticRecは,ユーティリティベースのリソースアロケーションを通じて,高いメモリ効率を実現しています。
全体として、ElasticRecはメモリ割り当てサイズの平均3.3倍、メモリユーティリティの8.1倍の削減を実現している。
関連論文リスト
- Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。
我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - EASRec: Elastic Architecture Search for Efficient Long-term Sequential
Recommender Systems [82.76483989905961]
現在のSRS(Sequential Recommender Systems)は、計算とリソースの非効率に悩まされている。
我々は、効率的な長期シーケンスレコメンダシステム(EASRec)のための弾性アーキテクチャー探索を開発する。
EASRecは、入力データバッチから履歴情報を活用するデータ認識ゲートを導入し、レコメンデーションネットワークの性能を改善する。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - A Cost-Aware Mechanism for Optimized Resource Provisioning in Cloud
Computing [6.369406986434764]
我々は,要求のコスト削減を保証する新しい学習ベースの資源供給手法を提案してきた。
我々の手法は要求のほとんどを効率的に適応させ、さらに結果のパフォーマンスは設計目標に合致する。
論文 参考訳(メタデータ) (2023-09-20T13:27:30Z) - Mem-Rec: Memory Efficient Recommendation System using Alternative
Representation [6.542635536704625]
MEM-RECは、テーブルを埋め込むための新しい代替表現手法である。
MEM-RECはレコメンデーション品質を維持するだけでなく、埋め込み遅延を改善することができる。
論文 参考訳(メタデータ) (2023-05-12T02:36:07Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - U-Boost NAS: Utilization-Boosted Differentiable Neural Architecture
Search [50.33956216274694]
ターゲットプラットフォームにおけるリソース利用の最適化は、DNN推論時に高いパフォーマンスを達成するための鍵となる。
本稿では,タスクの正確性や推論遅延を最適化するだけでなく,資源利用のためのハードウェア対応NASフレームワークを提案する。
我々は,従来のハードウェア対応NAS法と比較して,DNN推論の2.8~4倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-03-23T13:44:15Z) - Optimal Resource Allocation for Serverless Queries [8.59568779761598]
以前の作業では、リソース割り当てと実行時の積極的なトレードオフを無視しながら、ピークアロケーションの予測に重点を置いていた。
本稿では,新しいクエリと過去のクエリの両方に対して,アグレッシブなトレードオフでパフォーマンスを予測できる最適なリソース割り当てシステムを提案する。
論文 参考訳(メタデータ) (2021-07-19T02:55:48Z) - A Predictive Autoscaler for Elastic Batch Jobs [8.354712625979776]
Deep Learning、HPC、Sparkといった大規模なバッチジョブは、従来のオンラインサービスよりもはるかに多くの計算リソースとコストを必要とします。
顧客とオーバプロビジョンインスタンスに対して,柔軟なインターフェースを提供するための予測オートスケーラを提案する。
論文 参考訳(メタデータ) (2020-10-10T17:35:55Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。