論文の概要: FreeScale: Distributed Training for Sequence Recommendation Models with Minimal Scaling Cost
- arxiv url: http://arxiv.org/abs/2604.24073v1
- Date: Mon, 27 Apr 2026 05:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.761086
- Title: FreeScale: Distributed Training for Sequence Recommendation Models with Minimal Scaling Cost
- Title(参考訳): FreeScale:最小スケーリングコストによるシーケンス推奨モデルの分散トレーニング
- Authors: Chenhao Feng, Haoli Zhang, Shakhzod Ali-Zade, Yanli Zhao, Liang Luo, Jennifer Cao, Lisen Deng, Siqiao Chen, Chenyu Zhao, Tristan Rice, Daniel Johnson, Min Si, Tiantu Xu, Yi Zhang, Siqi Yan, Chuanhao Zhuge, Min Ni, Bi Xue, Qunshu Zhang, Shen Li,
- Abstract要約: FreeScaleは、厳密にロードバランスの取れた入力サンプルを通じてストラグラー問題を緩和するために設計されたソリューションである。
FreeScaleは256 H100 GPU上で動作する実世界のワークロードに適用した場合、最大90.3%の計算バブル削減を実現している。
- 参考スコア(独自算出の注目度): 9.878399952758015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern industrial Deep Learning Recommendation Models typically extract user preferences through the analysis of sequential interaction histories, subsequently generating predictions based on these derived interests. The inherent heterogeneity in data characteristics frequently result in substantial under-utilization of computational resources during large-scale training, primarily due to computational bubbles caused by severe stragglers and slow blocking communications. This paper introduces FreeScale, a solution designed to (1) mitigate the straggler problem through meticulously load balanced input samples (2) minimize the blocking communication by overlapping prioritized embedding communications with computations (3) resolve the GPU resource competition during computation and communication overlapping by communicating through SM-Free techniques. Empirical evaluation demonstrates that FreeScale achieves up to 90.3% reduction in computational bubbles when applied to real-world workloads running on 256 H100 GPUs.
- Abstract(参考訳): 現代のDeep Learning Recommendation Modelsは、典型的には、シーケンシャルな相互作用履歴の分析を通じて、ユーザの好みを抽出し、その後、これらの派生した関心に基づいて予測を生成する。
データ特性の固有の不均一性は、大規模なトレーニングにおいて、主に重度のストラグラーと遅いブロッキング通信によって引き起こされる計算バブルによって、計算資源のかなりの利用不足をもたらすことが多い。
本稿では,(1)厳密な負荷バランスの取れた入力サンプルによるトラグラー問題の緩和を図ったFreeScaleを紹介し,(2)計算処理による優先埋め込み通信の重複によるブロッキング通信の最小化(3)SM-Free手法による通信による計算および通信オーバラップ時のGPUリソースの競合を解決する。
実証的な評価は、256 H100 GPU上で動作する現実のワークロードに適用すると、FreeScaleが最大90.3%の計算バブルを削減できることを示している。
関連論文リスト
- Communication Efficient LLM Pre-training with SparseLoCo [13.326450941764099]
我々は,Large Language Models(LLMs)のための通信効率のよい学習アルゴリズムであるSparseLoCoを紹介する。
SparseLoCoは、Top-kスペーシフィケーションと2ビット量子化によるエラーフィードバックを効果的に活用して、極端なスペーシリティを1-3%まで低くする。
我々は、SparseLoCoが性能と通信コストの両方で大きな利益をもたらすような、コミュニケーションに制約のあるLLMトレーニング設定を経験的に実証した。
論文 参考訳(メタデータ) (2025-08-21T16:48:19Z) - Integrated Sensing, Communication, and Computation for Over-the-Air Federated Edge Learning [52.904670248426626]
本稿では,統合されたセンサ,通信,計算機能を備えた空対空フェデレーションエッジ・ラーニング(Air-FEEL)システムについて検討する。
バッチサイズ制御とネットワークリソース割り当てを交互に最適化することにより、低複雑さI SCCアルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-08-21T02:46:46Z) - Scalable Machine Learning Training Infrastructure for Online Ads Recommendation and Auction Scoring Modeling at Google [4.0088714133342895]
Googleスケールの広告レコメンデーションとオークションスコアリングモデルでは、膨大な計算リソースが要求される。
本稿では,効率的なエンドツーエンド実行に対処しなければならない3つの重要な課題に対する解決策を提案する。
論文 参考訳(メタデータ) (2025-01-17T20:40:56Z) - Semi-Federated Learning: Convergence Analysis and Optimization of A
Hybrid Learning Framework [70.83511997272457]
本稿では,ベースステーション(BS)とデバイスの両方を活用するセミフェデレーション学習(SemiFL)パラダイムを提案し,中央集権学習(CL)とFLのハイブリッド実装を提案する。
我々はこの難解な問題を解くための2段階のアルゴリズムを提案し、ビームフォーマに閉形式解を提供する。
論文 参考訳(メタデータ) (2023-10-04T03:32:39Z) - Adaptive Model Pruning and Personalization for Federated Learning over
Wireless Networks [72.59891661768177]
フェデレーション学習(FL)は、データプライバシを保護しながら、エッジデバイス間での分散学習を可能にする。
これらの課題を克服するために、部分的なモデルプルーニングとパーソナライズを備えたFLフレームワークを検討する。
このフレームワークは、学習モデルを、データ表現を学ぶためにすべてのデバイスと共有されるモデルプルーニングと、特定のデバイスのために微調整されるパーソナライズされた部分とで、グローバルな部分に分割する。
論文 参考訳(メタデータ) (2023-09-04T21:10:45Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach [54.311495894129585]
本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。
SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
論文 参考訳(メタデータ) (2022-06-28T13:10:40Z) - Distributed Nonparametric Estimation under Communication Constraints [0.0]
通信制約下での分散推定の振る舞いを理解するための一般的なフレームワークを提供する。
分散回帰, 密度推定, 分類, ポアソン回帰, ボラティリティ推定モデルにおいて, 最小値と一致する上限を導出する。
論文 参考訳(メタデータ) (2022-04-21T19:04:50Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。