論文の概要: CoCoNet: Co-Optimizing Computation and Communication for Distributed
Machine Learning
- arxiv url: http://arxiv.org/abs/2105.05720v2
- Date: Thu, 13 May 2021 01:04:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:35:14.445318
- Title: CoCoNet: Co-Optimizing Computation and Communication for Distributed
Machine Learning
- Title(参考訳): CoCoNet:分散機械学習のための計算と通信の最適化
- Authors: Abhinav Jangda, Jun Huang, Guodong Liu, Amir Hossein Nodehi Sabet,
Saeed Maleki, Youshan Miao, Madanlal Musuvathi, Todd Mytkowicz, Olli Sarikivi
- Abstract要約: CoCoNetは計算と通信の両方でプログラムを表現する計算言語である。
新規CoCoNet生成カーネルの統合後の大幅な改善を示す。
- 参考スコア(独自算出の注目度): 6.8023115112720145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep learning workloads run on distributed hardware and are difficult
to optimize -- data, model, and pipeline parallelism require a developer to
thoughtfully restructure their workload around optimized computation and
communication kernels in libraries such as cuBLAS and NCCL. The logical
separation between computation and communication leaves performance on the
table with missed optimization opportunities across abstraction boundaries. To
explore these opportunities, this paper presents CoCoNet, which consists of a
compute language to express programs with both computation and communication, a
scheduling language to apply transformations on such programs, and a compiler
to generate high performance kernels. Providing both computation and
communication as first class constructs enables new optimizations, such as
overlapping or fusion of communication with computation. CoCoNet allowed us to
optimize several data, model and pipeline parallel workloads in existing deep
learning systems with very few lines of code. We show significant improvements
after integrating novel CoCoNet generated kernels.
- Abstract(参考訳): データ、モデル、パイプラインの並列化は、開発者がcublasやncclといったライブラリで最適化された計算と通信カーネルを中心に、ワークロードを慎重に再構成する必要がある。
計算と通信の論理的分離は、抽象境界を越えた最適化の機会を逃すことなく、テーブル上のパフォーマンスを損なう。
このような機会を探るため,計算と通信の両方でプログラムを表現する計算言語であるCoCoNet,プログラムに変換を適用するスケジューリング言語,高性能カーネルを生成するコンパイラを提案する。
計算と通信の両方を第一クラスとして提供することで、計算との通信の重複や融合といった新しい最適化が可能になる。
CoCoNetを使用することで、既存のディープラーニングシステムの並列ワークロードを、数行のコードで最適化できるようになりました。
新規coconet生成カーネルの統合により,大幅な改善が見られた。
関連論文リスト
- A Method for Efficient Heterogeneous Parallel Compilation: A Cryptography Case Study [8.06660833012594]
本稿では,多様なハードウェアアーキテクチャにまたがるデータ管理と並列計算を最適化するために,ハイパーという新しいMLIRベースの方言を提案する。
HETOCompilerは,複数のハッシュアルゴリズムを実装し,不均一なシステム上での実行を可能にする,暗号に着目したコンパイラのプロトタイプである。
論文 参考訳(メタデータ) (2024-07-12T15:12:51Z) - ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training [16.560270624096706]
大規模言語モデルの分散学習に適したメモリ効率最適化アルゴリズムを提案する。
本手法は、勾配計算と通信の並列実行に固有の1ステップ遅れを軽減する新しい手法に依存する。
論文 参考訳(メタデータ) (2024-06-03T08:23:45Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - Randomized Polar Codes for Anytime Distributed Machine Learning [66.46612460837147]
本稿では,低速な計算ノードに対して堅牢で,線形演算の近似計算と精度の両立が可能な分散コンピューティングフレームワークを提案する。
本稿では,復号化のための計算複雑性を低く保ちながら,実数値データを扱うための逐次復号アルゴリズムを提案する。
大規模行列乗算やブラックボックス最適化など,様々な文脈において,このフレームワークの潜在的な応用を実証する。
論文 参考訳(メタデータ) (2023-09-01T18:02:04Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - RESPECT: Reinforcement Learning based Edge Scheduling on Pipelined Coral
Edge TPUs [12.952987240366781]
本研究は、最適化アルゴリズムの挙動を学習する強化学習(RL)に基づくスケジューリングフレームワークを提案する。
RLは、実行時のオーバーヘッドを短くすることで、ほぼ最適のスケジューリング結果を生成する。
我々のフレームワークは、商用コンパイラ上での実世界のオンチップランタイム推論速度アップを最大$sim2.5times$で実証しています。
論文 参考訳(メタデータ) (2023-04-10T17:22:12Z) - TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation [53.84175614198885]
分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。
ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。
論文 参考訳(メタデータ) (2023-02-20T08:37:44Z) - oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep
Learning Compilation [8.64220475114214]
oneDNN Graph Compilerは、コンパイラ最適化とエキスパートチューニングされたカーネルの両方のテクニックをハイパフォーマンスコード生成に使用するためのハイブリッドアプローチを採用している。
実験結果から,既存のテンソルコンパイラやプリミティブライブラリよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-01-03T19:52:17Z) - Towards a Scalable and Distributed Infrastructure for Deep Learning
Applications [4.4979162962108905]
Phylanxは生産性を重視した実行ツリーを提供する。
分散ディープラーニングフレームワークにおける欠点を軽減する可能性を持つPhylanxを提案する。
論文 参考訳(メタデータ) (2020-10-06T20:38:47Z) - Distributed Learning in the Non-Convex World: From Batch to Streaming
Data, and Beyond [73.03743482037378]
分散学習は、多くの人々が想定する、大規模に接続された世界の重要な方向となっている。
本稿では、スケーラブルな分散処理とリアルタイムデータ計算の4つの重要な要素について論じる。
実践的な問題や今後の研究についても論じる。
論文 参考訳(メタデータ) (2020-01-14T14:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。