Fugu-MT 論文翻訳(概要): FlexShard: Flexible Sharding for Industry-Scale Sequence Recommendation Models

論文の概要: FlexShard: Flexible Sharding for Industry-Scale Sequence Recommendation Models

arxiv url: http://arxiv.org/abs/2301.02959v1
Date: Sun, 8 Jan 2023 01:46:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-10 18:58:04.774653
Title: FlexShard: Flexible Sharding for Industry-Scale Sequence Recommendation Models
Title（参考訳）: flexshard: 業界規模のシーケンスレコメンデーションモデルのためのフレキシブルシャーディング
Authors: Geet Sethi, Pallab Bhattacharya, Dhruv Choudhary, Carole-Jean Wu, Christos Kozyrakis
Abstract要約: シーケンスベースのディープラーニングレコメンデーションモデル(DLRM)は、ユーザの長期的関心を捉える上で、これまでの総和ベースのモデルよりも大幅に改善されている。 DLRMは、1回の反復で各加速器によって動的に実体化され、通信するためにかなりの量のデータを必要とする。我々は、全ての行が同じではないという洞察を生かして、ローあたりの粒度で動作する新しいタイテッドシーケンス埋め込みテーブルシャーディングアルゴリズムFlexShardを提案する。
参考スコア（独自算出の注目度）: 4.208965626804266
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sequence-based deep learning recommendation models (DLRMs) are an emerging class of DLRMs showing great improvements over their prior sum-pooling based counterparts at capturing users' long term interests. These improvements come at immense system cost however, with sequence-based DLRMs requiring substantial amounts of data to be dynamically materialized and communicated by each accelerator during a single iteration. To address this rapidly growing bottleneck, we present FlexShard, a new tiered sequence embedding table sharding algorithm which operates at a per-row granularity by exploiting the insight that not every row is equal. Through precise replication of embedding rows based on their underlying probability distribution, along with the introduction of a new sharding strategy adapted to the heterogeneous, skewed performance of real-world cluster network topologies, FlexShard is able to significantly reduce communication demand while using no additional memory compared to the prior state-of-the-art. When evaluated on production-scale sequence DLRMs, FlexShard was able to reduce overall global all-to-all communication traffic by over 85%, resulting in end-to-end training communication latency improvements of almost 6x over the prior state-of-the-art approach.
Abstract（参考訳）: シーケンスベースのディープラーニングレコメンデーションモデル(DLRM)は、ユーザの長期的関心を捉える上で、従来の総和ベースのモデルよりも大幅に改善されたDLRMの新興クラスである。しかし、これらの改善はシステムコストが大きくなり、シーケンスベースのDLRMは、1回のイテレーションで各アクセラレーターによって動的に生成および通信するためにかなりの量のデータを必要とする。この急激なボトルネックに対処するために、すべての行が同じではないという洞察を利用して、ローあたりの粒度で動作する新しいタイトシーケンス埋め込みテーブルシャーディングアルゴリズムFlexShardを提案する。確率分布に基づく埋め込み行の正確な複製と、実世界のクラスタネットワークトポロジの不均一で歪んだパフォーマンスに適応した新しいシャーディング戦略の導入により、FlexShardは、従来の最先端と比較して追加メモリを使用しずに、通信要求を大幅に削減できる。プロダクションスケールのシーケンスDLRMで評価すると、FlexShardは全体の全通信トラフィックを85%以上削減することができ、結果として、従来の最先端のアプローチに比べて、エンドツーエンドの通信遅延がほぼ6倍改善された。

関連論文リスト

MTGR: Industrial-Scale Generative Recommendation Framework in Meituan [28.92150571719811]
この問題に対処するためにMTGR(Meituan Generative Recommendation)を提案する。 MTGRはユーザレベルの圧縮によってトレーニングと推論の高速化を実現し、効率的なスケーリングを実現する。この突破口は世界最大のフードデリバリープラットフォームであるMeituanに配備された。
論文参考訳（メタデータ） (2025-05-24T11:47:28Z)
A Transfer Framework for Enhancing Temporal Graph Learning in Data-Scarce Settings [30.97142882931946]
エンティティ間の動的相互作用は、ソーシャルプラットフォーム、金融システム、ヘルスケア、電子商取引のようなドメインで一般的である。 TGNNはそのような予測タスクに対して強力な結果を得ているが、通常、現実世界のシナリオで制限される広範なトレーニングデータを必要とする。本稿では,ノード表現を関連する特徴から2部符号化機構によって切り離す新しい転送手法を提案する。
論文参考訳（メタデータ） (2025-03-02T11:10:29Z)
Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文参考訳（メタデータ） (2025-01-08T20:11:09Z)
FedECADO: A Dynamical System Model of Federated Learning [15.425099636035108]
フェデレーション学習は分散最適化の力を活用して、別々のクライアント間で統一された機械学習モデルをトレーニングする。本研究は,フェデレート学習プロセスの動的システム表現にインスパイアされた新しいアルゴリズムであるFedECADOを提案する。 FedProxやFedNovaといった著名な技術と比較して、FedECADOは多くの異種シナリオにおいて高い分類精度を達成する。
論文参考訳（メタデータ） (2024-10-13T17:26:43Z)
Reprogramming Foundational Large Language Models(LLMs) for Enterprise Adoption for Spatio-Temporal Forecasting Applications: Unveiling a New Era in Copilot-Guided Cross-Modal Time Series Representation Learning [0.0]
パティオ時間予測は、輸送システム、物流、サプライチェーン管理など、様々な分野において重要な役割を担っている。本稿では,オープンソースの大規模・小規模言語モデル(LLM,LM)と従来の予測手法を組み合わせたハイブリッド手法を提案する。
論文参考訳（メタデータ） (2024-08-26T16:11:53Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Communication-Efficient Distributed Deep Learning via Federated Dynamic Averaging [1.4748100900619232]
Federated Dynamic Averaging (FDA)は通信効率の良いDDL戦略である。 FDAは従来のアルゴリズムと最先端のアルゴリズムと比較して、通信コストを桁違いに削減している。
論文参考訳（メタデータ） (2024-05-31T16:34:11Z)
Momentum-Based Federated Reinforcement Learning with Interaction and Communication Efficiency [16.002770483584694]
フェデレート強化学習(FRL)が注目を集めている。本稿では,新しいFRLアルゴリズムである$texttMFPO$を紹介する。運動量パラメータと相互作用周波数の適切な選択により、$texttMFPO$は$tildemathcalO(H-1Nepsilon-3/2N)$および$tmathcalO(ilon-1N)$を達成することができる。
論文参考訳（メタデータ） (2024-05-24T03:23:37Z)
Contrastive Multiple Instance Learning for Weakly Supervised Person ReID [50.04900262181093]
本稿では、より効果的に教師付きされたReIDに適した新しいフレームワークであるContrastive Multiple Instance Learning (CMIL)を紹介する。 CMILは、対照的な損失を生かしながら、単一のモデルと擬似ラベルを必要とせず、自分自身を区別する。 PerformancePhoto.coの実際のアプリケーションから自然に発生する弱いラベルを特徴とするMUDDデータセットの拡張であるWL-MUDDデータセットをリリースする。
論文参考訳（メタデータ） (2024-02-12T14:48:31Z)
Fed-CVLC: Compressing Federated Learning Communications with Variable-Length Codes [54.18186259484828]
フェデレートラーニング(FL)パラダイムでは、パラメータサーバ(PS)がモデル収集、更新アグリゲーション、複数のラウンドでのモデル分散のために、分散参加クライアントと同時通信する。 FLの圧縮には可変長が有用であることを示す。本稿では,Fed-CVLC(Federated Learning Compression with Variable-Length Codes)を提案する。
論文参考訳（メタデータ） (2024-02-06T07:25:21Z)
Client Orchestration and Cost-Efficient Joint Optimization for NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文参考訳（メタデータ） (2023-11-03T13:34:44Z)
Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文参考訳（メタデータ） (2023-07-26T16:19:19Z)
Deep Reinforcement Learning in mmW-NOMA: Joint Power Allocation and Hybrid Beamforming [0.0]
ミリ波(mmW)周波数帯域における非直交多重アクセス(NOMA)アプローチにより、データレートの高要求が保証される。 mmW-NOMAシステムの連系電力配分とハイブリッドビームフォーミングは、機械学習と制御理論のアプローチの最近の進歩によってもたらされる。
論文参考訳（メタデータ） (2022-05-13T07:55:48Z)
Faster Non-Convex Federated Learning via Global and Local Momentum [57.52663209739171]
textttFedGLOMOは最初の(一階)FLtexttFedGLOMOアルゴリズムです。クライアントとサーバ間の通信においても,我々のアルゴリズムは確実に最適である。
論文参考訳（メタデータ） (2020-12-07T21:05:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。