論文の概要: Disaggregating Embedding Recommendation Systems with FlexEMR
- arxiv url: http://arxiv.org/abs/2410.12794v1
- Date: Sat, 28 Sep 2024 01:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 09:48:00.689562
- Title: Disaggregating Embedding Recommendation Systems with FlexEMR
- Title(参考訳): FlexEMRによる埋め込み推奨システムの分散化
- Authors: Yibo Huang, Zhenning Yang, Jiarong Xing, Yi Dai, Yiming Qiu, Dingming Wu, Fan Lai, Ang Chen,
- Abstract要約: FlexEMRは、ネットワークの課題に取り組むための2つのテクニックを提案しています。
それぞれのテクニックの設計空間を概説し、初期のプロトタイプからの最初の結果を示す。
- 参考スコア(独自算出の注目度): 15.8882408225153
- License:
- Abstract: Efficiently serving embedding-based recommendation (EMR) models remains a significant challenge due to their increasingly large memory requirements. Today's practice splits the model across many monolithic servers, where a mix of GPUs, CPUs, and DRAM is provisioned in fixed proportions. This approach leads to suboptimal resource utilization and increased costs. Disaggregating embedding operations from neural network inference is a promising solution but raises novel networking challenges. In this paper, we discuss the design of FlexEMR for optimized EMR disaggregation. FlexEMR proposes two sets of techniques to tackle the networking challenges: Leveraging the temporal and spatial locality of embedding lookups to reduce data movement over the network, and designing an optimized multi-threaded RDMA engine for concurrent lookup subrequests. We outline the design space for each technique and present initial results from our early prototype.
- Abstract(参考訳): 組み込みベースのレコメンデーション(EMR)モデルを効率的に提供することは、ますます大きなメモリ要件のため、依然として大きな課題である。
今日のプラクティスでは、モデルを多くのモノリシックサーバに分割し、GPU、CPU、DRAMが一定の割合でプロビジョニングされている。
このアプローチは、最適なリソース利用とコストの増加につながる。
ニューラルネットワーク推論から埋め込み操作を分離することは、有望な解決策だが、新しいネットワーク課題を提起する。
本稿では、最適化されたEMR分解のためのFlexEMRの設計について論じる。
FlexEMRは、ネットワーク上のデータ移動を減らすために埋め込みルックアップの時間的および空間的局所性を活用することと、同時ルックアップサブ要求のための最適化されたマルチスレッドRDMAエンジンを設計する、という2つの手法を提案する。
それぞれのテクニックの設計空間を概説し、初期のプロトタイプからの最初の結果を示す。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - MF-NeRF: Memory Efficient NeRF with Mixed-Feature Hash Table [62.164549651134465]
MF-NeRFは,Mixed-Featureハッシュテーブルを用いてメモリ効率を向上し,再構成品質を維持しながらトレーニング時間を短縮するメモリ効率の高いNeRFフレームワークである。
最新技術であるInstant-NGP、TensoRF、DVGOによる実験は、MF-NeRFが同じGPUハードウェア上で、同様のあるいはそれ以上のリコンストラクション品質で最速のトレーニング時間を達成できることを示唆している。
論文 参考訳(メタデータ) (2023-04-25T05:44:50Z) - A Multi-objective Complex Network Pruning Framework Based on
Divide-and-conquer and Global Performance Impairment Ranking [40.59001171151929]
本稿では,多目的複合ネットワークプルーニングフレームワークを提案する。
提案アルゴリズムは,最先端プルーニング手法と同等の性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T12:05:15Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - RDRN: Recursively Defined Residual Network for Image Super-Resolution [58.64907136562178]
深部畳み込みニューラルネットワーク(CNN)は、単一画像超解像において顕著な性能を得た。
本稿では,注目ブロックを効率的に活用する新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-17T11:06:29Z) - DRAGON: Decentralized Fault Tolerance in Edge Federations [13.864161788250856]
我々は、新しいメモリ効率のディープラーニングベースモデル、すなわち生成最適化ネットワーク(GON)を提案する。
GONは入力とサンプルを区別するために単一のネットワークを使用し、メモリフットプリントを大幅に削減する。
本稿では,エッジフェデレーションの性能を迅速に予測し,最適化するためにシミュレーションを実行するDRAGONと呼ばれる分散型フォールトトレランス手法を提案する。
論文 参考訳(メタデータ) (2022-08-16T10:40:28Z) - MPRNet: Multi-Path Residual Network for Lightweight Image Super
Resolution [2.3576437999036473]
軽量SRにおけるSOTA性能を向上させる軽量超解像ネットワークを提案する。
提案アーキテクチャには新たなアテンション機構であるTwo-Fold Attention Moduleが含まれており,モデルの表現能力を最大化することができる。
論文 参考訳(メタデータ) (2020-11-09T17:11:15Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。