Fugu-MT 論文翻訳(概要): ElasticRec: A Microservice-based Model Serving Architecture Enabling Elastic Resource Scaling for Recommendation Models

論文の概要: ElasticRec: A Microservice-based Model Serving Architecture Enabling Elastic Resource Scaling for Recommendation Models

arxiv url: http://arxiv.org/abs/2406.06955v1
Date: Tue, 11 Jun 2024 05:25:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 17:25:19.118008
Title: ElasticRec: A Microservice-based Model Serving Architecture Enabling Elastic Resource Scaling for Recommendation Models
Title（参考訳）: ElasticRec: 推奨モデルのためのエラスティックリソーススケーリングを実現するマイクロサービスベースのモデルサービングアーキテクチャ
Authors: Yujeong Choi, Jiin Kim, Minsoo Rhu,
Abstract要約: ElasticRecはRecSysのアーキテクチャを提供するモデルである。リソースの弾力性と高いメモリ効率を提供する。メモリ割り当てサイズが平均3.3倍、メモリユーティリティが8.1倍向上する。
参考スコア（独自算出の注目度）: 3.3339432744306277
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the increasing popularity of recommendation systems (RecSys), the demand for compute resources in datacenters has surged. However, the model-wise resource allocation employed in current RecSys model serving architectures falls short in effectively utilizing resources, leading to sub-optimal total cost of ownership. We propose ElasticRec, a model serving architecture for RecSys providing resource elasticity and high memory efficiency. ElasticRec is based on a microservice-based software architecture for fine-grained resource allocation, tailored to the heterogeneous resource demands of RecSys. Additionally, ElasticRec achieves high memory efficiency via our utility-based resource allocation. Overall, ElasticRec achieves an average 3.3x reduction in memory allocation size and 8.1x increase in memory utility, resulting in an average 1.6x reduction in deployment cost compared to state-of-the-art RecSys inference serving system.
Abstract（参考訳）: レコメンデーションシステム(RecSys)の普及に伴い、データセンタにおける計算リソースの需要が急増している。しかし、現在のRecSysモデルサービスアーキテクチャで採用されているモデルワイドリソース割り当ては、リソースを効果的に活用するに足りず、最適以下の総所有コストにつながる。本稿では,リソースの弾力性と高いメモリ効率を実現するRecSysのモデルであるElasticRecを提案する。 ElasticRecは、RecSysの異種リソース要求に合わせて、きめ細かいリソース割り当てのためのマイクロサービスベースのソフトウェアアーキテクチャに基づいている。さらにElasticRecは,ユーティリティベースのリソースアロケーションを通じて,高いメモリ効率を実現しています。全体として、ElasticRecはメモリ割り当てサイズの平均3.3倍、メモリユーティリティの8.1倍の削減を実現している。

関連論文リスト

Autonomous Resource Management in Microservice Systems via Reinforcement Learning [15.956459415328775]
本稿では,マイクロサービスリソーススケジューリングと最適化のための強化学習に基づく手法を提案する。マイクロサービスシステムでは、サービスの数と負荷の増加に伴って、リソースの効率的なスケジューリングと割り当てが重要な研究課題になります。多次元資源条件下では、提案手法は複数の目的を考慮し、最適化された資源スケジューリングを実現することができる。
論文参考訳（メタデータ） (2025-07-17T07:58:16Z)
Dynamic Acoustic Model Architecture Optimization in Training for ASR [51.21112094223223]
DMAOは、Grow-and-drop戦略を使用して、トレーニング中にパラメータを自動的に再配置するアーキテクチャ最適化フレームワークである。 CTC onSpeech, TED-Lium-v2, Switchboard を用いてDMAOの評価を行った。
論文参考訳（メタデータ） (2025-06-16T07:47:34Z)
$\ ext{R}^2\ ext{ec}$: Towards Large Recommender Models with Reasoning [50.291998724376654]
我々は,本質的な推論機能を備えた統合された大規模レコメンデータモデルであるnameを提案する。 RecPOは、単一のポリシー更新で推論とレコメンデーションの両方の機能を同時に最適化する、対応する強化学習フレームワークである。さまざまなベースラインを持つ3つのデータセットの実験では、Hit@5で68.67%、NDCG@20で45.21%の相対的な改善が見られた。
論文参考訳（メタデータ） (2025-05-22T17:55:43Z)
ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文参考訳（メタデータ） (2025-03-24T13:11:22Z)
Memory Is Not the Bottleneck: Cost-Efficient Continual Learning via Weight Space Consolidation [55.77835198580209]
連続学習(CL)は、メモリが主要なボトルネックであると仮定して、メモリ使用量の最小化を伝統的に強調してきた。本稿では, CLを十分なメモリでより現実的な環境下で再検討し, システムが過去のデータの代表的部分を保持できることを示す。この体制下では、忘れることを減らすことによって安定性が向上するが、モデルが以前のタスクに偏り、新しいタスクに適応するのに苦労すると、可塑性は低下する。
論文参考訳（メタデータ） (2025-02-11T05:40:52Z)
Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。 RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。 RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文参考訳（メタデータ） (2025-01-31T17:19:57Z)
FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文参考訳（メタデータ） (2025-01-24T18:46:37Z)
Resource-Efficient Transformer Architecture: Optimizing Memory and Execution Time for Real-Time Applications [0.1874930567916036]
本稿では,メモリ使用量と実行時間を大幅に削減するメモリ効率変換器モデルについて述べる。その結果、メモリ使用量の52%削減と実行時間の33%削減が達成され、最先端モデルよりも効率が向上した。
論文参考訳（メタデータ） (2024-12-25T14:41:23Z)
AI-Driven Resource Allocation Framework for Microservices in Hybrid Cloud Platforms [1.03590082373586]
本稿では,ハイブリッドクラウドプラットフォームにおけるリソース割り当てのためのAI駆動型フレームワークを提案する。このフレームワークは、コスト削減と性能向上のために強化学習(RL)ベースのリソース利用最適化を採用している。
論文参考訳（メタデータ） (2024-12-03T17:41:08Z)
Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。 LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文参考訳（メタデータ） (2024-08-20T09:42:17Z)
Efficient Federated Learning Using Dynamic Update and Adaptive Pruning with Momentum on Shared Server Data [59.6985168241067]
フェデレートラーニング(FL)は、低トレーニング効率と限られた計算資源の2つの重要な問題に遭遇する。本稿では,サーバ上の共有不感データとエッジデバイスの分散データを活用するための新しいFLフレームワークであるFedDUMAPを提案する。提案するFLモデルであるFedDUMAPは,従来の3つの手法を組み合わせることで,ベースラインアプローチと比較して性能が大幅に向上した。
論文参考訳（メタデータ） (2024-08-11T02:59:11Z)
EASRec: Elastic Architecture Search for Efficient Long-term Sequential Recommender Systems [82.76483989905961]
現在のSRS(Sequential Recommender Systems)は、計算とリソースの非効率に悩まされている。我々は、効率的な長期シーケンスレコメンダシステム(EASRec)のための弾性アーキテクチャー探索を開発する。 EASRecは、入力データバッチから履歴情報を活用するデータ認識ゲートを導入し、レコメンデーションネットワークの性能を改善する。
論文参考訳（メタデータ） (2024-02-01T07:22:52Z)
A Cost-Aware Mechanism for Optimized Resource Provisioning in Cloud Computing [6.369406986434764]
我々は,要求のコスト削減を保証する新しい学習ベースの資源供給手法を提案してきた。我々の手法は要求のほとんどを効率的に適応させ、さらに結果のパフォーマンスは設計目標に合致する。
論文参考訳（メタデータ） (2023-09-20T13:27:30Z)
Mem-Rec: Memory Efficient Recommendation System using Alternative Representation [6.542635536704625]
MEM-RECは、テーブルを埋め込むための新しい代替表現手法である。 MEM-RECはレコメンデーション品質を維持するだけでなく、埋め込み遅延を改善することができる。
論文参考訳（メタデータ） (2023-05-12T02:36:07Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Towards Realistic Low-resource Relation Extraction: A Benchmark with Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文参考訳（メタデータ） (2022-10-19T15:46:37Z)
Optimal Resource Allocation for Serverless Queries [8.59568779761598]
以前の作業では、リソース割り当てと実行時の積極的なトレードオフを無視しながら、ピークアロケーションの予測に重点を置いていた。本稿では,新しいクエリと過去のクエリの両方に対して,アグレッシブなトレードオフでパフォーマンスを予測できる最適なリソース割り当てシステムを提案する。
論文参考訳（メタデータ） (2021-07-19T02:55:48Z)
A Predictive Autoscaler for Elastic Batch Jobs [8.354712625979776]
Deep Learning、HPC、Sparkといった大規模なバッチジョブは、従来のオンラインサービスよりもはるかに多くの計算リソースとコストを必要とします。顧客とオーバプロビジョンインスタンスに対して,柔軟なインターフェースを提供するための予測オートスケーラを提案する。
論文参考訳（メタデータ） (2020-10-10T17:35:55Z)
A Generic Network Compression Framework for Sequential Recommender Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。 CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文参考訳（メタデータ） (2020-04-21T08:40:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。