論文の概要: Research on Model Parallelism and Data Parallelism Optimization Methods in Large Language Model-Based Recommendation Systems
- arxiv url: http://arxiv.org/abs/2506.17551v2
- Date: Tue, 24 Jun 2025 02:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 11:22:20.097392
- Title: Research on Model Parallelism and Data Parallelism Optimization Methods in Large Language Model-Based Recommendation Systems
- Title(参考訳): 大規模言語モデルに基づくレコメンデーションシステムにおけるモデル並列性とデータ並列性最適化手法に関する研究
- Authors: Haowei Yang, Yu Tian, Zhongheng Yang, Zhao Wang, Chengrui Zhou, Dannier Li,
- Abstract要約: 推薦システムにおける大規模言語モデル (LLM) はますます顕著になっている。
本稿では,最適化手法の2つのクラス,モデル並列性とデータ並列性について系統的に検討する。
シミュレーションサービス環境における実世界のレコメンデーションデータセットを用いて行った実験は、提案したハイブリッド並列化スキームがトレーニングスループットを30%以上向上することを示した。
- 参考スコア(独自算出の注目度): 6.453224262551299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid adoption of large language models (LLMs) in recommendation systems, the computational and communication bottlenecks caused by their massive parameter sizes and large data volumes have become increasingly prominent. This paper systematically investigates two classes of optimization methods-model parallelism and data parallelism-for distributed training of LLMs in recommendation scenarios. For model parallelism, we implement both tensor parallelism and pipeline parallelism, and introduce an adaptive load-balancing mechanism to reduce cross-device communication overhead. For data parallelism, we compare synchronous and asynchronous modes, combining gradient compression and sparsification techniques with an efficient aggregation communication framework to significantly improve bandwidth utilization. Experiments conducted on a real-world recommendation dataset in a simulated service environment demonstrate that our proposed hybrid parallelism scheme increases training throughput by over 30% and improves resource utilization by approximately 20% compared to traditional single-mode parallelism, while maintaining strong scalability and robustness. Finally, we discuss trade-offs among different parallel strategies in online deployment and outline future directions involving heterogeneous hardware integration and automated scheduling technologies.
- Abstract(参考訳): 推薦システムにおける大規模言語モデル (LLM) の急速な普及に伴い, 大規模パラメータサイズと大規模データボリュームに起因する計算・通信のボトルネックがますます顕著になっている。
本稿では,LLMの分散学習のための最適化手法-モデル並列化とデータ並列化の2つのクラスを推薦シナリオで体系的に検討する。
モデル並列化では,テンソル並列性とパイプライン並列性の両方を実装し,デバイス間通信のオーバーヘッドを低減するための適応的負荷分散機構を導入する。
データ並列化では、同期モードと非同期モードを比較し、勾配圧縮とスパーシフィケーション技術と効率的なアグリゲーション通信フレームワークを組み合わせることにより、帯域幅の利用率を大幅に改善する。
シミュレーションサービス環境における実世界のレコメンデーションデータセットを用いて行った実験では,提案手法によりトレーニングスループットが30%以上向上し,従来の単一モード並列処理と比較して約20%向上し,スケーラビリティと堅牢性を維持しながら,リソース利用率も向上した。
最後に、オンラインデプロイメントにおける異なる並行戦略間のトレードオフについて議論し、異種ハードウェア統合と自動スケジューリング技術を含む今後の方向性について概説する。
関連論文リスト
- Rethinking Dynamic Networks and Heterogeneous Computing with Automatic Parallelization [8.918295350787465]
現在の並列計画フレームワークは、ノードの不均一性と動的ネットワークトポロジの変化を同時に考慮している。
本研究では,不実現不可能な並列構成を高速に破棄するストラテジ・プルーニング手法を提案する。
予備評価では,本手法が異種ノードのトレーニング性能を向上させることが確認された。
論文 参考訳(メタデータ) (2025-06-03T12:14:17Z) - Improving Automatic Parallel Training via Balanced Memory Workload
Optimization [36.87527680184956]
トランスフォーマーモデルは、様々なアプリケーションドメインで最先端のパフォーマンスを達成するための主要なアプローチとして現れています。
本稿では,複数の並列性を持つ次元を統合し,最も効率的なハイブリッド並列性戦略を自動的に識別する新しいシステムフレームワークであるGalvatron-BMWを提案する。
異なるTransformerモデルを用いた評価では,Galvatron-BMWがGPUメモリ制約の異なる分散トレーニングを自動化できることが示されている。
論文 参考訳(メタデータ) (2023-07-05T05:28:38Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Restructuring, Pruning, and Adjustment of Deep Models for Parallel
Distributed Inference [15.720414948573753]
複数の処理ノード(ワーカ)上で既に訓練済みのディープモデルの並列実装について検討する。
並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。
既存の手法と比較して,RePurposeは並列実装による分散推論の効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-08-19T06:44:41Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。