論文の概要: FlexShard: Flexible Sharding for Industry-Scale Sequence Recommendation
Models
- arxiv url: http://arxiv.org/abs/2301.02959v1
- Date: Sun, 8 Jan 2023 01:46:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 18:58:04.774653
- Title: FlexShard: Flexible Sharding for Industry-Scale Sequence Recommendation
Models
- Title(参考訳): flexshard: 業界規模のシーケンスレコメンデーションモデルのためのフレキシブルシャーディング
- Authors: Geet Sethi, Pallab Bhattacharya, Dhruv Choudhary, Carole-Jean Wu,
Christos Kozyrakis
- Abstract要約: シーケンスベースのディープラーニングレコメンデーションモデル(DLRM)は、ユーザの長期的関心を捉える上で、これまでの総和ベースのモデルよりも大幅に改善されている。
DLRMは、1回の反復で各加速器によって動的に実体化され、通信するためにかなりの量のデータを必要とする。
我々は、全ての行が同じではないという洞察を生かして、ローあたりの粒度で動作する新しいタイテッドシーケンス埋め込みテーブルシャーディングアルゴリズムFlexShardを提案する。
- 参考スコア(独自算出の注目度): 4.208965626804266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence-based deep learning recommendation models (DLRMs) are an emerging
class of DLRMs showing great improvements over their prior sum-pooling based
counterparts at capturing users' long term interests. These improvements come
at immense system cost however, with sequence-based DLRMs requiring substantial
amounts of data to be dynamically materialized and communicated by each
accelerator during a single iteration. To address this rapidly growing
bottleneck, we present FlexShard, a new tiered sequence embedding table
sharding algorithm which operates at a per-row granularity by exploiting the
insight that not every row is equal. Through precise replication of embedding
rows based on their underlying probability distribution, along with the
introduction of a new sharding strategy adapted to the heterogeneous, skewed
performance of real-world cluster network topologies, FlexShard is able to
significantly reduce communication demand while using no additional memory
compared to the prior state-of-the-art. When evaluated on production-scale
sequence DLRMs, FlexShard was able to reduce overall global all-to-all
communication traffic by over 85%, resulting in end-to-end training
communication latency improvements of almost 6x over the prior state-of-the-art
approach.
- Abstract(参考訳): シーケンスベースのディープラーニングレコメンデーションモデル(DLRM)は、ユーザの長期的関心を捉える上で、従来の総和ベースのモデルよりも大幅に改善されたDLRMの新興クラスである。
しかし、これらの改善はシステムコストが大きくなり、シーケンスベースのDLRMは、1回のイテレーションで各アクセラレーターによって動的に生成および通信するためにかなりの量のデータを必要とする。
この急激なボトルネックに対処するために、すべての行が同じではないという洞察を利用して、ローあたりの粒度で動作する新しいタイトシーケンス埋め込みテーブルシャーディングアルゴリズムFlexShardを提案する。
確率分布に基づく埋め込み行の正確な複製と、実世界のクラスタネットワークトポロジの不均一で歪んだパフォーマンスに適応した新しいシャーディング戦略の導入により、FlexShardは、従来の最先端と比較して追加メモリを使用しずに、通信要求を大幅に削減できる。
プロダクションスケールのシーケンスDLRMで評価すると、FlexShardは全体の全通信トラフィックを85%以上削減することができ、結果として、従来の最先端のアプローチに比べて、エンドツーエンドの通信遅延がほぼ6倍改善された。
関連論文リスト
- FedECADO: A Dynamical System Model of Federated Learning [15.425099636035108]
フェデレーション学習は分散最適化の力を活用して、別々のクライアント間で統一された機械学習モデルをトレーニングする。
本研究は,フェデレート学習プロセスの動的システム表現にインスパイアされた新しいアルゴリズムであるFedECADOを提案する。
FedProxやFedNovaといった著名な技術と比較して、FedECADOは多くの異種シナリオにおいて高い分類精度を達成する。
論文 参考訳(メタデータ) (2024-10-13T17:26:43Z) - Reprogramming Foundational Large Language Models(LLMs) for Enterprise Adoption for Spatio-Temporal Forecasting Applications: Unveiling a New Era in Copilot-Guided Cross-Modal Time Series Representation Learning [0.0]
パティオ時間予測は、輸送システム、物流、サプライチェーン管理など、様々な分野において重要な役割を担っている。
本稿では,オープンソースの大規模・小規模言語モデル(LLM,LM)と従来の予測手法を組み合わせたハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-08-26T16:11:53Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Communication-Efficient Distributed Deep Learning via Federated Dynamic Averaging [1.4748100900619232]
Federated Dynamic Averaging (FDA)は通信効率の良いDDL戦略である。
FDAは従来のアルゴリズムと最先端のアルゴリズムと比較して、通信コストを桁違いに削減している。
論文 参考訳(メタデータ) (2024-05-31T16:34:11Z) - Momentum-Based Federated Reinforcement Learning with Interaction and Communication Efficiency [16.002770483584694]
フェデレート強化学習(FRL)が注目を集めている。
本稿では,新しいFRLアルゴリズムである$texttMFPO$を紹介する。
運動量パラメータと相互作用周波数の適切な選択により、$texttMFPO$は$tildemathcalO(H-1Nepsilon-3/2N)$および$tmathcalO(ilon-1N)$を達成することができる。
論文 参考訳(メタデータ) (2024-05-24T03:23:37Z) - Contrastive Multiple Instance Learning for Weakly Supervised Person ReID [50.04900262181093]
本稿では、より効果的に教師付きされたReIDに適した新しいフレームワークであるContrastive Multiple Instance Learning (CMIL)を紹介する。
CMILは、対照的な損失を生かしながら、単一のモデルと擬似ラベルを必要とせず、自分自身を区別する。
PerformancePhoto.coの実際のアプリケーションから自然に発生する弱いラベルを特徴とするMUDDデータセットの拡張であるWL-MUDDデータセットをリリースする。
論文 参考訳(メタデータ) (2024-02-12T14:48:31Z) - Fed-CVLC: Compressing Federated Learning Communications with
Variable-Length Codes [54.18186259484828]
フェデレートラーニング(FL)パラダイムでは、パラメータサーバ(PS)がモデル収集、更新アグリゲーション、複数のラウンドでのモデル分散のために、分散参加クライアントと同時通信する。
FLの圧縮には可変長が有用であることを示す。
本稿では,Fed-CVLC(Federated Learning Compression with Variable-Length Codes)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:25:21Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Deep Reinforcement Learning in mmW-NOMA: Joint Power Allocation and
Hybrid Beamforming [0.0]
ミリ波(mmW)周波数帯域における非直交多重アクセス(NOMA)アプローチにより、データレートの高要求が保証される。
mmW-NOMAシステムの連系電力配分とハイブリッドビームフォーミングは、機械学習と制御理論のアプローチの最近の進歩によってもたらされる。
論文 参考訳(メタデータ) (2022-05-13T07:55:48Z) - Faster Non-Convex Federated Learning via Global and Local Momentum [57.52663209739171]
textttFedGLOMOは最初の(一階)FLtexttFedGLOMOアルゴリズムです。
クライアントとサーバ間の通信においても,我々のアルゴリズムは確実に最適である。
論文 参考訳(メタデータ) (2020-12-07T21:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。