Fugu-MT 論文翻訳(概要): Hera: A Heterogeneity-Aware Multi-Tenant Inference Server for Personalized Recommendations

論文の概要: Hera: A Heterogeneity-Aware Multi-Tenant Inference Server for Personalized Recommendations

arxiv url: http://arxiv.org/abs/2302.11750v1
Date: Thu, 23 Feb 2023 02:36:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-24 16:28:14.567396
Title: Hera: A Heterogeneity-Aware Multi-Tenant Inference Server for Personalized Recommendations
Title（参考訳）: hera: パーソナライズドレコメンデーションのための異種対応マルチテナント推論サーバ
Authors: Yujeong Choi, John Kim, Minsoo Rhu
Abstract要約: モデルの複数のワーカーを同時に配置することは、クエリレベルの並列性とサーバのスループットを最大化する効果的な方法である。 Heraはマシンの有効利用を平均37.3%改善し、必要なサーバを26%削減できることを示した。
参考スコア（独自算出の注目度）: 5.665277660516125
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While providing low latency is a fundamental requirement in deploying recommendation services, achieving high resource utility is also crucial in cost-effectively maintaining the datacenter. Co-locating multiple workers of a model is an effective way to maximize query-level parallelism and server throughput, but the interference caused by concurrent workers at shared resources can prevent server queries from meeting its SLA. Hera utilizes the heterogeneous memory requirement of multi-tenant recommendation models to intelligently determine a productive set of co-located models and its resource allocation, providing fast response time while achieving high throughput. We show that Hera achieves an average 37.3% improvement in effective machine utilization, enabling 26% reduction in required servers, significantly improving upon the baseline recommedation inference server.
Abstract（参考訳）: 低レイテンシの提供はレコメンデーションサービスのデプロイにおける基本的な要件ですが、高リソースユーティリティの実現は、データセンタの費用対効果の維持にも不可欠です。モデルの複数のワーカを同時に配置することは、クエリレベルの並列性とサーバスループットを最大化する効果的な方法だが、共有リソースにおける並行ワーカーによる干渉は、サーバクエリがSLAを満たすのを防ぐことができる。 heraはマルチテナントのレコメンデーションモデルのヘテロジニアスメモリ要件を利用して、生産的なコロケーションモデルとそのリソース割り当てをインテリジェントに決定し、高いスループットを実現しながら高速な応答時間を提供する。我々は,Heraが有効利用率を平均37.3%向上し,必要なサーバを26%削減し,ベースラインリコメデーション推論サーバを大幅に改善したことを示す。

関連論文リスト

Multi-Agent Reinforcement Learning for Sample-Efficient Deep Neural Network Mapping [54.65536245955678]
本稿では,サンプル非効率性の課題を克服するために,分散型マルチエージェント強化学習(MARL)フレームワークを提案する。相関解析に基づいて類似のマッピングパラメータを同一エージェントに割り当てるエージェントクラスタリングアルゴリズムを提案する。実験の結果,MARL法は標準単エージェントRLよりも30～300倍効率が向上した。
論文参考訳（メタデータ） (2025-07-22T05:51:07Z)
RoseRAG: Robust Retrieval-augmented Generation with Small-scale LLMs via Margin-aware Preference Optimization [53.63439735067081]
大規模言語モデル(LLM)は目覚ましい性能を達成したが、高い計算コストとレイテンシに直面している。 Retrieval-augmented Generation (RAG) は、外部知識を統合するのに役立つが、不完全な検索は、SLMを誤解させるノイズを引き起こす可能性がある。我々は、Margin-aware Preference Optimizationを通じて、SLMのための堅牢なRAGフレームワークであるRoseRAGを提案する。
論文参考訳（メタデータ） (2025-02-16T04:56:53Z)
Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-14T06:17:33Z)
BlendServe: Optimizing Offline Inference for Auto-regressive Large Models with Resource-aware Batching [28.13349943279609]
レイテンシに敏感なアプリケーションでは、オフラインのバッチ推論が一般的になっています。オフラインバッチ推論の資源利用を最大化するシステムであるBlendServeを提案する。 BlendServeは、広く使われている業界標準と比較して、最大で1.44倍のスループット向上を提供する。
論文参考訳（メタデータ） (2024-11-25T05:24:53Z)
Topology-aware Preemptive Scheduling for Co-located LLM Workloads [7.240168647854797]
我々は,ハイブリッドワークロードのスケジューリングのための微粒なトポロジ認識手法を開発した。本手法は, プリエンプションの効率を大幅に向上し, LLMワークロードのスケジュール性能を55%向上させる。
論文参考訳（メタデータ） (2024-11-18T13:26:09Z)
Efficient Federated Learning Using Dynamic Update and Adaptive Pruning with Momentum on Shared Server Data [59.6985168241067]
フェデレートラーニング(FL)は、低トレーニング効率と限られた計算資源の2つの重要な問題に遭遇する。本稿では,サーバ上の共有不感データとエッジデバイスの分散データを活用するための新しいFLフレームワークであるFedDUMAPを提案する。提案するFLモデルであるFedDUMAPは,従来の3つの手法を組み合わせることで,ベースラインアプローチと比較して性能が大幅に向上した。
論文参考訳（メタデータ） (2024-08-11T02:59:11Z)
Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文参考訳（メタデータ） (2024-06-29T02:40:28Z)
On the Role of Server Momentum in Federated Learning [85.54616432098706]
a)フェデレートラーニング(FL)において未探索な大量のモーメントスキームを網羅するサーバモーメントの一般的な枠組みを提案する。提案するフレームワークに対して厳密な収束解析を行う。
論文参考訳（メタデータ） (2023-12-19T23:56:49Z)
Serverless Federated AUPRC Optimization for Multi-Party Collaborative Imbalanced Data Mining [119.89373423433804]
有効指標としてAUPRC(Area Under Precision-Recall)を導入した。サーバーレスのマルチパーティ共同トレーニングは、サーバーノードのボトルネックを避けることで通信コストを削減できる。本稿では,AUPRCを直接最適化する ServerLess biAsed sTochastic gradiEnt (SLATE) アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-08-06T06:51:32Z)
FedDUAP: Federated Learning with Dynamic Update and Adaptive Pruning Using Shared Data on the Server [64.94942635929284]
フェデレーテッド・ラーニング(FL)は2つの重要な課題、すなわち限られた計算資源と訓練効率の低下に悩まされている。本稿では,サーバ上の不感なデータとエッジデバイスの分散データを利用する新しいFLフレームワークであるFedDUAPを提案する。提案するFLモデルであるFedDUAPは,2つの元の手法を統合することで,精度(最大4.8%),効率(最大2.8倍),計算コスト(最大61.9%)において,ベースラインアプローチを著しく上回っている。
論文参考訳（メタデータ） (2022-04-25T10:00:00Z)
Optimal Resource Allocation for Serverless Queries [8.59568779761598]
以前の作業では、リソース割り当てと実行時の積極的なトレードオフを無視しながら、ピークアロケーションの予測に重点を置いていた。本稿では,新しいクエリと過去のクエリの両方に対して,アグレッシブなトレードオフでパフォーマンスを予測できる最適なリソース割り当てシステムを提案する。
論文参考訳（メタデータ） (2021-07-19T02:55:48Z)
Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文参考訳（メタデータ） (2021-06-17T00:01:18Z)
Intelligent colocation of HPC workloads [0.0]
多くのHPCアプリケーションは、共有キャッシュ、命令実行ユニット、I/O、メモリ帯域幅のボトルネックに苦しんでいる。開発者やランタイムシステムにとって、すべての重要なリソースが単一のアプリケーションによって完全に悪用されることを保証するのは難しいため、魅力的なテクニックは、複数のアプリケーションを同じサーバに配置することです。まず,ハードウェアの性能カウンタに基づいて,コロケーションされたアプリケーションの性能劣化をモデル化することにより,サーバ効率を向上できることを示す。
論文参考訳（メタデータ） (2021-03-16T12:35:35Z)
Understanding Capacity-Driven Scale-Out Neural Recommendation Inference [1.9529164002361878]
この研究は、データセンターサービスインフラストラクチャを使用したスケールアウトなディープラーニングレコメンデーション推論を記述し、特徴付ける。分散推論のレイテンシと計算オーバーヘッドは、主にモデルの静的埋め込みテーブル分布の結果であることがわかった。さらに奨励的に、分散推論がデータセンタースケールのレコメンデーションサービスにおける効率改善の原因となっていることを示す。
論文参考訳（メタデータ） (2020-11-04T00:51:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。