論文の概要: PIFS-Rec: Process-In-Fabric-Switch for Large-Scale Recommendation System Inferences
- arxiv url: http://arxiv.org/abs/2409.16633v1
- Date: Wed, 25 Sep 2024 05:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 05:23:25.893859
- Title: PIFS-Rec: Process-In-Fabric-Switch for Large-Scale Recommendation System Inferences
- Title(参考訳): PIFS-Rec:大規模レコメンデーションシステム推論のためのプロセス・イン・ファブリック・スイッチ
- Authors: Pingyi Huo, Anusha Devulapally, Hasan Al Maruf, Minseo Park, Krishnakumar Nair, Meena Arunachalam, Gulsum Gudukbay Akbulut, Mahmut Taylan Kandemir, Vijaykrishnan Narayanan,
- Abstract要約: 本稿では,布地スイッチの下流ポートを介して,近距離データ処理を実現するPIFS-Recを提案する。
PIFS-Recは、業界標準のCXLベースのシステムであるPondの3.89倍のレイテンシを実現し、最先端のスキームであるBEACONを2.03倍に上回っている。
- 参考スコア(独自算出の注目度): 8.383303202995144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Learning Recommendation Models (DLRMs) have become increasingly popular and prevalent in today's datacenters, consuming most of the AI inference cycles. The performance of DLRMs is heavily influenced by available bandwidth due to their large vector sizes in embedding tables and concurrent accesses. To achieve substantial improvements over existing solutions, novel approaches towards DLRM optimization are needed, especially, in the context of emerging interconnect technologies like CXL. This study delves into exploring CXL-enabled systems, implementing a process-in-fabric-switch (PIFS) solution to accelerate DLRMs while optimizing their memory and bandwidth scalability. We present an in-depth characterization of industry-scale DLRM workloads running on CXL-ready systems, identifying the predominant bottlenecks in existing CXL systems. We, therefore, propose PIFS-Rec, a PIFS-based scheme that implements near-data processing through downstream ports of the fabric switch. PIFS-Rec achieves a latency that is 3.89x lower than Pond, an industry-standard CXL-based system, and also outperforms BEACON, a state-of-the-art scheme, by 2.03x.
- Abstract(参考訳): ディープラーニングレコメンデーションモデル(DLRM)は、今日のデータセンタで人気を博し、AI推論サイクルの大部分を消費している。
DLRMの性能は、埋め込みテーブルや同時アクセスにおけるベクトルサイズが大きいため、利用可能な帯域幅に大きく影響されている。
既存のソリューションよりも大幅に改善するためには、特にCXLのような新たな相互接続技術において、DLRM最適化への新しいアプローチが必要である。
本稿では,メモリと帯域幅のスケーラビリティを最適化しつつ,DLRMを高速化するPFS(Process-in-fabric-switch)ソリューションを実装したCXL対応システムについて検討する。
本稿では,CXL対応システム上で稼働する産業規模のDLRMワークロードを詳細に解析し,既存のCXLシステムのボトルネックを同定する。
そこで本研究では,布地スイッチの下流ポートを介して,近距離データ処理を実現するPIFS-Recを提案する。
PIFS-Recは、業界標準のCXLベースのシステムであるPondの3.89倍のレイテンシを実現し、最先端のスキームであるBEACONを2.03倍に上回っている。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Disaggregating Embedding Recommendation Systems with FlexEMR [15.8882408225153]
FlexEMRは、ネットワークの課題に取り組むための2つのテクニックを提案しています。
それぞれのテクニックの設計空間を概説し、初期のプロトタイプからの最初の結果を示す。
論文 参考訳(メタデータ) (2024-09-28T01:58:11Z) - A Decoding Acceleration Framework for Industrial Deployable LLM-based Recommender Systems [49.588316022381385]
本稿では,LLMベースのレコメンデーション(DARE)のためのデコード高速化フレームワークを提案し,検索効率を向上させるためのカスタマイズされた検索プールと,ドラフトトークンの受け入れ率を高めるための緩和検証を提案する。
DAREは大規模な商用環境でのオンライン広告シナリオにデプロイされ、ダウンストリームのパフォーマンスを維持しながら3.45倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - A GPU-specialized Inference Parameter Server for Large-Scale Deep
Recommendation Models [6.823233135936128]
推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって不可欠である。
ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせることで、基礎となるデータのきめ細かい表現を得る。
従来の推論サービスアーキテクチャでは、モデル全体をスタンドアロンのサーバにデプロイする必要があります。
論文 参考訳(メタデータ) (2022-10-17T07:36:18Z) - Distributed Reinforcement Learning for Privacy-Preserving Dynamic Edge
Caching [91.50631418179331]
MECネットワークにおけるデバイスのキャッシュヒット率を最大化するために,プライバシ保護型分散ディープポリシー勾配(P2D3PG)を提案する。
分散最適化をモデルフリーなマルコフ決定プロセス問題に変換し、人気予測のためのプライバシー保護フェデレーション学習手法を導入する。
論文 参考訳(メタデータ) (2021-10-20T02:48:27Z) - JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data [86.8949732640035]
追加データをクエリすることで制限をサイドステップするMBOアルゴリズムであるJUMBOを提案する。
GP-UCBに類似した条件下では, 応答が得られないことを示す。
実世界の2つの最適化問題に対する既存手法に対する性能改善を実証的に示す。
論文 参考訳(メタデータ) (2021-06-02T05:03:38Z) - High-performance, Distributed Training of Large-scale Deep Learning
Recommendation Models [18.63017668881868]
ディープラーニングレコメンデーションモデル(DLRM)は、Facebookの多くのビジネスクリティカルサービスで使用されている。
本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて論じる。
我々は、最大12トリリオンパラメータで非常に大きなDLRMを訓練する能力を実証し、以前のシステムよりも解決策に時間の観点から40倍のスピードアップを達成できることを示しています。
論文 参考訳(メタデータ) (2021-04-12T02:15:55Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。