論文の概要: ElasticRec: A Microservice-based Model Serving Architecture Enabling Elastic Resource Scaling for Recommendation Models
- arxiv url: http://arxiv.org/abs/2406.06955v1
- Date: Tue, 11 Jun 2024 05:25:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-12 17:25:19.118008
- Title: ElasticRec: A Microservice-based Model Serving Architecture Enabling Elastic Resource Scaling for Recommendation Models
- Title(参考訳): ElasticRec: 推奨モデルのためのエラスティックリソーススケーリングを実現するマイクロサービスベースのモデルサービングアーキテクチャ
- Authors: Yujeong Choi, Jiin Kim, Minsoo Rhu,
- Abstract要約: ElasticRecはRecSysのアーキテクチャを提供するモデルである。
リソースの弾力性と高いメモリ効率を提供する。
メモリ割り当てサイズが平均3.3倍、メモリユーティリティが8.1倍向上する。
- 参考スコア(独自算出の注目度): 3.3339432744306277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing popularity of recommendation systems (RecSys), the demand for compute resources in datacenters has surged. However, the model-wise resource allocation employed in current RecSys model serving architectures falls short in effectively utilizing resources, leading to sub-optimal total cost of ownership. We propose ElasticRec, a model serving architecture for RecSys providing resource elasticity and high memory efficiency. ElasticRec is based on a microservice-based software architecture for fine-grained resource allocation, tailored to the heterogeneous resource demands of RecSys. Additionally, ElasticRec achieves high memory efficiency via our utility-based resource allocation. Overall, ElasticRec achieves an average 3.3x reduction in memory allocation size and 8.1x increase in memory utility, resulting in an average 1.6x reduction in deployment cost compared to state-of-the-art RecSys inference serving system.
- Abstract(参考訳): レコメンデーションシステム(RecSys)の普及に伴い、データセンタにおける計算リソースの需要が急増している。
しかし、現在のRecSysモデルサービスアーキテクチャで採用されているモデルワイドリソース割り当ては、リソースを効果的に活用するに足りず、最適以下の総所有コストにつながる。
本稿では,リソースの弾力性と高いメモリ効率を実現するRecSysのモデルであるElasticRecを提案する。
ElasticRecは、RecSysの異種リソース要求に合わせて、きめ細かいリソース割り当てのためのマイクロサービスベースのソフトウェアアーキテクチャに基づいている。
さらにElasticRecは,ユーティリティベースのリソースアロケーションを通じて,高いメモリ効率を実現しています。
全体として、ElasticRecはメモリ割り当てサイズの平均3.3倍、メモリユーティリティの8.1倍の削減を実現している。
関連論文リスト
- ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - Resource-Efficient Transformer Architecture: Optimizing Memory and Execution Time for Real-Time Applications [0.1874930567916036]
本稿では,メモリ使用量と実行時間を大幅に削減するメモリ効率変換器モデルについて述べる。
その結果、メモリ使用量の52%削減と実行時間の33%削減が達成され、最先端モデルよりも効率が向上した。
論文 参考訳(メタデータ) (2024-12-25T14:41:23Z) - AI-Driven Resource Allocation Framework for Microservices in Hybrid Cloud Platforms [1.03590082373586]
本稿では,ハイブリッドクラウドプラットフォームにおけるリソース割り当てのためのAI駆動型フレームワークを提案する。
このフレームワークは、コスト削減と性能向上のために強化学習(RL)ベースのリソース利用最適化を採用している。
論文 参考訳(メタデータ) (2024-12-03T17:41:08Z) - Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。
LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文 参考訳(メタデータ) (2024-08-20T09:42:17Z) - Efficient Federated Learning Using Dynamic Update and Adaptive Pruning with Momentum on Shared Server Data [59.6985168241067]
フェデレートラーニング(FL)は、低トレーニング効率と限られた計算資源の2つの重要な問題に遭遇する。
本稿では,サーバ上の共有不感データとエッジデバイスの分散データを活用するための新しいFLフレームワークであるFedDUMAPを提案する。
提案するFLモデルであるFedDUMAPは,従来の3つの手法を組み合わせることで,ベースラインアプローチと比較して性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-08-11T02:59:11Z) - EASRec: Elastic Architecture Search for Efficient Long-term Sequential
Recommender Systems [82.76483989905961]
現在のSRS(Sequential Recommender Systems)は、計算とリソースの非効率に悩まされている。
我々は、効率的な長期シーケンスレコメンダシステム(EASRec)のための弾性アーキテクチャー探索を開発する。
EASRecは、入力データバッチから履歴情報を活用するデータ認識ゲートを導入し、レコメンデーションネットワークの性能を改善する。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - A Cost-Aware Mechanism for Optimized Resource Provisioning in Cloud
Computing [6.369406986434764]
我々は,要求のコスト削減を保証する新しい学習ベースの資源供給手法を提案してきた。
我々の手法は要求のほとんどを効率的に適応させ、さらに結果のパフォーマンスは設計目標に合致する。
論文 参考訳(メタデータ) (2023-09-20T13:27:30Z) - Mem-Rec: Memory Efficient Recommendation System using Alternative
Representation [6.542635536704625]
MEM-RECは、テーブルを埋め込むための新しい代替表現手法である。
MEM-RECはレコメンデーション品質を維持するだけでなく、埋め込み遅延を改善することができる。
論文 参考訳(メタデータ) (2023-05-12T02:36:07Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - Optimal Resource Allocation for Serverless Queries [8.59568779761598]
以前の作業では、リソース割り当てと実行時の積極的なトレードオフを無視しながら、ピークアロケーションの予測に重点を置いていた。
本稿では,新しいクエリと過去のクエリの両方に対して,アグレッシブなトレードオフでパフォーマンスを予測できる最適なリソース割り当てシステムを提案する。
論文 参考訳(メタデータ) (2021-07-19T02:55:48Z) - A Predictive Autoscaler for Elastic Batch Jobs [8.354712625979776]
Deep Learning、HPC、Sparkといった大規模なバッチジョブは、従来のオンラインサービスよりもはるかに多くの計算リソースとコストを必要とします。
顧客とオーバプロビジョンインスタンスに対して,柔軟なインターフェースを提供するための予測オートスケーラを提案する。
論文 参考訳(メタデータ) (2020-10-10T17:35:55Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。