Fugu-MT 論文翻訳(概要): Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach

論文の概要: Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach

arxiv url: http://arxiv.org/abs/2406.04594v1
Date: Fri, 7 Jun 2024 02:58:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 15:48:53.508362
Title: Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach
Title（参考訳）: C4による大規模並列トレーニング効率の向上 - コミュニケーション駆動アプローチ
Authors: Jianbo Dong, Bin Luo, Jun Zhang, Pengcheng Zhang, Fei Feng, Yikai Zhu, Ang Liu, Zian Chen, Yi Shi, Hairong Jiao, Gang Lu, Yu Guan, Ennan Zhai, Wencong Xiao, Hanyu Zhao, Man Yuan, Siran Yang, Xiang Li, Jiamang Wang, Rui Men, Jianwei Zhang, Huang Zhong, Dennis Cai, Yuan Xie, Binzhang Fu,
Abstract要約: 本稿では,通信駆動型ソリューションであるC4を紹介する。この機能を利用することで、C4は欠陥のあるコンポーネントを迅速に識別し、異常を迅速に分離し、タスクを再起動することができる。 C4は運用システム全体に広く実装されており、エラーによるオーバーヘッドを約30%削減し、実行時のパフォーマンスを約15%向上しています。
参考スコア（独自算出の注目度）: 28.92581734765132
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of Large Language Models (LLMs) has necessitated the adoption of parallel training techniques, involving the deployment of thousands of GPUs to train a single model. Unfortunately, we have found that the efficiency of current parallel training is often suboptimal, largely due to the following two main issues. Firstly, hardware failures are inevitable, leading to interruptions in the training tasks. The inability to quickly identify the faulty components results in a substantial waste of GPU resources. Secondly, since GPUs must wait for parameter synchronization to complete before proceeding to the next round of computation, network congestions can greatly increase the waiting time for GPUs. To address these challenges, this paper introduces a communication-driven solution, namely the C4. The key insights of C4 are two folds. First, in parallel training, collective communication exhibits periodic and homogeneous characteristics, so any anomalies are certainly due to some form of hardware malfunction. By leveraging this feature, C4 can rapidly identify the faulty components, swiftly isolate the anomaly, and restart the task, thereby avoiding resource wastage caused by delays in anomaly detection. Second, the predictable communication model of collective communication, involving few large flows, allows C4 to efficiently execute traffic planning, substantially reducing network congestion. C4 has been extensively implemented across our production systems, cutting error-induced overhead by roughly 30% and enhancing runtime performance by about 15% for certain applications with moderate communication costs.
Abstract（参考訳）: 大規模言語モデル(LLM)の出現は、単一のモデルをトレーニングするために数千のGPUをデプロイすることを含む、並列トレーニング技術の採用を必要としている。残念なことに、現在の並列トレーニングの効率はしばしば、以下の2つの主要な問題のために、最適以下であることが分かりました。第一に、ハードウェアの障害は避けられず、トレーニングタスクの中断につながる。欠陥のあるコンポーネントを素早く識別できないことは、GPUリソースのかなりの無駄をもたらす。第二に、GPUは次の計算ラウンドに進む前にパラメータ同期が完了するのを待つ必要があるため、ネットワークの混雑はGPUの待ち時間を大幅に増加させる可能性がある。これらの課題に対処するために,本稿では,通信駆動型ソリューション,すなわちC4を紹介する。 C4の重要な洞察は2つある。まず、並列訓練において、集合的コミュニケーションは周期的および均質的な特性を示すため、どの異常も何らかのハードウェアの故障によるものであることは確かである。この機能を利用することで、C4は欠陥コンポーネントを迅速に識別し、異常を迅速に分離し、タスクを再起動し、異常検出の遅延によるリソースの浪費を回避することができる。第2に、大規模なフローが少ない集団通信の予測可能な通信モデルにより、C4はトラフィック計画の効率的な実行を可能にし、ネットワークの混雑を大幅に低減する。 C4は運用システム全体に広く実装されており、エラーによるオーバーヘッドを約30%削減し、ある程度の通信コストのある特定のアプリケーションに対して、実行時のパフォーマンスを約15%向上させています。

関連論文リスト

Caching Techniques for Reducing the Communication Cost of Federated Learning in IoT Environments [2.942616054218564]
フェデレートラーニング(FL)は、複数のデバイスがデータを集中せずに共有モデルを共同でトレーニングすることを可能にする。本稿では、不必要なモデル更新送信を減らすために、キャッシュ戦略(FIFO、LRU、プライオリティベース)を紹介する。
論文参考訳（メタデータ） (2025-07-19T17:02:15Z)
A Multi-task Supervised Compression Model for Split Computing [4.234757989234096]
分散コンピューティングは、リソース制約のあるエッジコンピューティングシステムのためのディープラーニングモデルに対する有望なアプローチである。マルチタスクスプリットコンピューティングのための最初のマルチタスク型教師付き圧縮モデルであるLadonを提案する。我々のモデルはマルチタスクスプリットコンピューティングシナリオにおいて、エンドツーエンドのレイテンシ(最大95.4%)とモバイルデバイスのエネルギー消費(最大88.2%)を削減した。
論文参考訳（メタデータ） (2025-01-02T18:59:05Z)
Digital Twin-Assisted Federated Learning with Blockchain in Multi-tier Computing Systems [67.14406100332671]
産業用 4.0 システムでは、リソース制約のあるエッジデバイスが頻繁にデータ通信を行う。本稿では,デジタルツイン (DT) とフェデレーション付きデジタルツイン (FL) 方式を提案する。提案手法の有効性を数値解析により検証した。
論文参考訳（メタデータ） (2024-11-04T17:48:02Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Event-Triggered Reinforcement Learning Based Joint Resource Allocation for Ultra-Reliable Low-Latency V2X Communications [10.914558012458425]
6G対応車載ネットワークは、安全クリティカルな情報をタイムリーに提供するための低遅延通信(URLLC)を確保するという課題に直面している。車両間通信システム(V2X)の従来のリソース割り当てスキームは、従来の復号法に基づくアルゴリズムに依存している。
論文参考訳（メタデータ） (2024-07-18T23:55:07Z)
FedsLLM: Federated Split Learning for Large Language Models over Communication Networks [30.47242577997792]
本稿では,低ランク適応技術 (LoRA) と分割学習フレームワークを組み合わせることで,大規模言語モデル (FedsLLM) のためのフェデレーション分割学習を提案する。提案アルゴリズムは、最適化されていないシナリオと比較して平均47.63%遅延を削減する。
論文参考訳（メタデータ） (2024-07-12T13:23:54Z)
ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation [2.0181279529015925]
ReCycleは、障害発生時の効率的なトレーニング用に設計されたシステムである。分散トレーニングシステムに固有の機能的冗長性を活用する。複数の障害で高いトレーニングスループットを実現していることを示す。
論文参考訳（メタデータ） (2024-05-22T21:35:56Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
High Throughput Training of Deep Surrogates from Large Ensemble Runs [38.018735015291156]
ディープサロゲートは一般的に、加速しようとする同じソルバによってゆっくりと生成される限られた量のデータから教師付き方法で訓練される。シミュレーションの大規模な実行から,これらのモデルのオンライントレーニングを可能にするオープンソースフレームワークを提案する。熱方程式のサロゲートとして完全に接続されたネットワークのトレーニング実験により,提案手法により,従来のオフライン手順に比べて精度が47%向上し,バッチスループットが13倍向上した8TBのデータを2時間でトレーニングすることが可能となった。
論文参考訳（メタデータ） (2023-09-28T09:34:52Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
Fair and Efficient Distributed Edge Learning with Hybrid Multipath TCP [62.81300791178381]
無線による分散エッジ学習のボトルネックは、コンピューティングから通信へと移行した。 DEL用の既存のTCPベースのデータネットワークスキームは、アプリケーションに依存しず、アプリケーション層要求に応じて調整を施さない。 DELのためのモデルベースと深部強化学習(DRL)に基づくMP TCPを組み合わせたハイブリッドマルチパスTCP(MP TCP)を開発した。
論文参考訳（メタデータ） (2022-11-03T09:08:30Z)
Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文参考訳（メタデータ） (2022-07-05T20:42:24Z)
Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文参考訳（メタデータ） (2022-02-07T15:04:15Z)
Communication-Efficient TeraByte-Scale Model Training Framework for Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文参考訳（メタデータ） (2022-01-05T18:09:11Z)
Accelerating Distributed K-FAC with Smart Parallelism of Computing and Communication Tasks [13.552262050816616]
Kronecker-Factored Approximate Curvature (KFAC)は、深層モデルのトレーニングにおいて最も効率的な近似アルゴリズムの1つである。しかし、KFACでモデルをトレーニングするためにGPUクラスタを活用すると、大規模な計算が発生すると同時に、イテレーション毎に余分な通信が導入される。そこで我々は,D-KFACを提案する。
論文参考訳（メタデータ） (2021-07-14T08:01:07Z)
Sparse-Push: Communication- & Energy-Efficient Decentralized Distributed Learning over Directed & Time-Varying Graphs with non-IID Datasets [2.518955020930418]
Sparse-Pushはコミュニケーション効率の高い分散型トレーニングアルゴリズムである。提案アルゴリズムは,通信性能がわずか1%の466倍の低減を実現する。非IIDデータセットのケースにおいて,通信圧縮が性能を著しく低下させることを示す。
論文参考訳（メタデータ） (2021-02-10T19:41:11Z)
Revisiting Locally Supervised Learning: an Alternative to End-to-end Training [36.43515074019875]
そこで我々は,情報伝達(InfoPro)損失を提案する。ローカルモジュールが可能な限り有用な情報を保存することを奨励する。 E2E トレーニングと比較して,InfoPro は 40% 未満のメモリフットプリントで競合性能を達成可能であることを示す。
論文参考訳（メタデータ） (2021-01-26T15:02:18Z)
Distributed Sparse SGD with Majority Voting [5.32836690371986]
分散学習のための分散コミュニケーション戦略として,多数決に基づく疎間コミュニケーション戦略を導入する。テスト精度を損なうことなく,最大x4000圧縮を達成可能であることを示す。
論文参考訳（メタデータ） (2020-11-12T17:06:36Z)
Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文参考訳（メタデータ） (2020-10-30T22:06:05Z)
Straggler-aware Distributed Learning: Communication Computation Latency Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文参考訳（メタデータ） (2020-04-10T08:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。