論文の概要: FlexShard: Flexible Sharding for Industry-Scale Sequence Recommendation
Models
- arxiv url: http://arxiv.org/abs/2301.02959v1
- Date: Sun, 8 Jan 2023 01:46:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 18:58:04.774653
- Title: FlexShard: Flexible Sharding for Industry-Scale Sequence Recommendation
Models
- Title(参考訳): flexshard: 業界規模のシーケンスレコメンデーションモデルのためのフレキシブルシャーディング
- Authors: Geet Sethi, Pallab Bhattacharya, Dhruv Choudhary, Carole-Jean Wu,
Christos Kozyrakis
- Abstract要約: シーケンスベースのディープラーニングレコメンデーションモデル(DLRM)は、ユーザの長期的関心を捉える上で、これまでの総和ベースのモデルよりも大幅に改善されている。
DLRMは、1回の反復で各加速器によって動的に実体化され、通信するためにかなりの量のデータを必要とする。
我々は、全ての行が同じではないという洞察を生かして、ローあたりの粒度で動作する新しいタイテッドシーケンス埋め込みテーブルシャーディングアルゴリズムFlexShardを提案する。
- 参考スコア(独自算出の注目度): 4.208965626804266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence-based deep learning recommendation models (DLRMs) are an emerging
class of DLRMs showing great improvements over their prior sum-pooling based
counterparts at capturing users' long term interests. These improvements come
at immense system cost however, with sequence-based DLRMs requiring substantial
amounts of data to be dynamically materialized and communicated by each
accelerator during a single iteration. To address this rapidly growing
bottleneck, we present FlexShard, a new tiered sequence embedding table
sharding algorithm which operates at a per-row granularity by exploiting the
insight that not every row is equal. Through precise replication of embedding
rows based on their underlying probability distribution, along with the
introduction of a new sharding strategy adapted to the heterogeneous, skewed
performance of real-world cluster network topologies, FlexShard is able to
significantly reduce communication demand while using no additional memory
compared to the prior state-of-the-art. When evaluated on production-scale
sequence DLRMs, FlexShard was able to reduce overall global all-to-all
communication traffic by over 85%, resulting in end-to-end training
communication latency improvements of almost 6x over the prior state-of-the-art
approach.
- Abstract(参考訳): シーケンスベースのディープラーニングレコメンデーションモデル(DLRM)は、ユーザの長期的関心を捉える上で、従来の総和ベースのモデルよりも大幅に改善されたDLRMの新興クラスである。
しかし、これらの改善はシステムコストが大きくなり、シーケンスベースのDLRMは、1回のイテレーションで各アクセラレーターによって動的に生成および通信するためにかなりの量のデータを必要とする。
この急激なボトルネックに対処するために、すべての行が同じではないという洞察を利用して、ローあたりの粒度で動作する新しいタイトシーケンス埋め込みテーブルシャーディングアルゴリズムFlexShardを提案する。
確率分布に基づく埋め込み行の正確な複製と、実世界のクラスタネットワークトポロジの不均一で歪んだパフォーマンスに適応した新しいシャーディング戦略の導入により、FlexShardは、従来の最先端と比較して追加メモリを使用しずに、通信要求を大幅に削減できる。
プロダクションスケールのシーケンスDLRMで評価すると、FlexShardは全体の全通信トラフィックを85%以上削減することができ、結果として、従来の最先端のアプローチに比べて、エンドツーエンドの通信遅延がほぼ6倍改善された。
関連論文リスト
- Achieving Linear Speedup in Asynchronous Federated Learning with
Heterogeneous Clients [30.135431295658343]
フェデレートラーニング(FL)は、異なるクライアントにローカルに保存されているデータを交換したり転送したりすることなく、共通のグローバルモデルを学ぶことを目的としている。
本稿では,DeFedAvgという,効率的な連邦学習(AFL)フレームワークを提案する。
DeFedAvgは、望まれる線形スピードアップ特性を達成する最初のAFLアルゴリズムであり、高いスケーラビリティを示している。
論文 参考訳(メタデータ) (2024-02-17T05:22:46Z) - Contrastive Multiple Instance Learning for Weakly Supervised Person ReID [50.04900262181093]
本稿では、より効果的に教師付きされたReIDに適した新しいフレームワークであるContrastive Multiple Instance Learning (CMIL)を紹介する。
CMILは、対照的な損失を生かしながら、単一のモデルと擬似ラベルを必要とせず、自分自身を区別する。
PerformancePhoto.coの実際のアプリケーションから自然に発生する弱いラベルを特徴とするMUDDデータセットの拡張であるWL-MUDDデータセットをリリースする。
論文 参考訳(メタデータ) (2024-02-12T14:48:31Z) - Fed-CVLC: Compressing Federated Learning Communications with
Variable-Length Codes [54.18186259484828]
フェデレートラーニング(FL)パラダイムでは、パラメータサーバ(PS)がモデル収集、更新アグリゲーション、複数のラウンドでのモデル分散のために、分散参加クライアントと同時通信する。
FLの圧縮には可変長が有用であることを示す。
本稿では,Fed-CVLC(Federated Learning Compression with Variable-Length Codes)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:25:21Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Straggler-Resilient Decentralized Learning via Adaptive Asynchronous
Updates [12.075207097903203]
完全に分散化された最適化手法は、人気のあるパラメータサーバフレームワークに代わるものとして提唱されている。
本稿では、各労働者が通信する近隣労働者の数を適応的に決定することで、適応的な非同期更新を施した完全に分散化されたアルゴリズムを提案する。
我々は、DSGD-AAUが収束の線形高速化を達成することを示す(つまり、労働者数に対して収束性能が線形的に増加する)。
論文 参考訳(メタデータ) (2023-06-11T02:08:59Z) - Beyond ADMM: A Unified Client-variance-reduced Adaptive Federated
Learning Framework [82.36466358313025]
我々はFedVRAと呼ばれる原始二重FLアルゴリズムを提案し、このアルゴリズムはグローバルモデルの分散還元レベルとバイアスを適応的に制御することができる。
半教師付き画像分類タスクに基づく実験は,既存の手法よりもFedVRAの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-12-03T03:27:51Z) - FedNet2Net: Saving Communication and Computations in Federated Learning
with Model Growing [0.0]
フェデレート・ラーニング(Federated Learning, FL)は、最近開発された機械学習の分野である。
本稿では「モデル成長」の概念に基づく新しいスキームを提案する。
提案手法は3つの標準ベンチマークで広範囲に検証され、通信とクライアントの計算の大幅な削減を実現することが示されている。
論文 参考訳(メタデータ) (2022-07-19T21:54:53Z) - Deep Reinforcement Learning in mmW-NOMA: Joint Power Allocation and
Hybrid Beamforming [0.0]
ミリ波(mmW)周波数帯域における非直交多重アクセス(NOMA)アプローチにより、データレートの高要求が保証される。
mmW-NOMAシステムの連系電力配分とハイブリッドビームフォーミングは、機械学習と制御理論のアプローチの最近の進歩によってもたらされる。
論文 参考訳(メタデータ) (2022-05-13T07:55:48Z) - Communication-Efficient Federated Learning with Compensated
Overlap-FedAvg [22.636184975591004]
フェデレーションラーニングは、クラスタ内でデータセットを共有することなく、複数のクライアントの複合データによるモデルトレーニングを実行するために提案される。
Overlap-FedAvgはモデルアップロードおよびダウンロードフェーズとモデルトレーニングフェーズを並列化するフレームワークである。
オーバーラップfedavgはさらに階層的計算戦略、データ補償機構、ネステロフ加速勾配(nag)アルゴリズムを用いて開発されている。
論文 参考訳(メタデータ) (2020-12-12T02:50:09Z) - Faster Non-Convex Federated Learning via Global and Local Momentum [57.52663209739171]
textttFedGLOMOは最初の(一階)FLtexttFedGLOMOアルゴリズムです。
クライアントとサーバ間の通信においても,我々のアルゴリズムは確実に最適である。
論文 参考訳(メタデータ) (2020-12-07T21:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。