論文の概要: Efficient Data-Plane Memory Scheduling for In-Network Aggregation
- arxiv url: http://arxiv.org/abs/2201.06398v1
- Date: Mon, 17 Jan 2022 13:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 17:07:08.615281
- Title: Efficient Data-Plane Memory Scheduling for In-Network Aggregation
- Title(参考訳): ネットワーク内集約のための効率的なデータプレーンメモリスケジューリング
- Authors: Hao Wang, Yuxuan Qin, ChonLam Lao, Yanfang Le, Wenfei Wu, Kai Chen
- Abstract要約: 我々は、$underlineE$fficient Switch Memory $underlineS$cheduler for In-Network $underlineA$ggregationを提案する。
コアでは、ESAはアグリゲータ割り当てプリミティブを強制し、データプレーンで優先度スケジューリングを導入する。
実験の結果、ESAは平均的なJCTを最大$1.35タイムで改善できることがわかった。
- 参考スコア(独自算出の注目度): 14.52822604368543
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As the scale of distributed training grows, communication becomes a
bottleneck. To accelerate the communication, recent works introduce In-Network
Aggregation (INA), which moves the gradients summation into network
middle-boxes, e.g., programmable switches to reduce the traffic volume.
However, switch memory is scarce compared to the volume of gradients
transmitted in distributed training. Although literature applies methods like
pool-based streaming or dynamic sharing to tackle the mismatch, switch memory
is still a potential performance bottleneck. Furthermore, we observe the
under-utilization of switch memory due to the synchronization requirement for
aggregator deallocation in recent works. To improve the switch memory
utilization, we propose ESA, an $\underline{E}$fficient Switch Memory
$\underline{S}$cheduler for In-Network $\underline{A}$ggregation. At its cores,
ESA enforces the preemptive aggregator allocation primitive and introduces
priority scheduling at the data-plane, which improves the switch memory
utilization and average job completion time (JCT). Experiments show that ESA
can improve the average JCT by up to $1.35\times$.
- Abstract(参考訳): 分散トレーニングの規模が大きくなると、コミュニケーションはボトルネックになる。
通信を加速するために、最近の研究では、勾配和をネットワークの中間ボックス(例えばプログラマブルスイッチ)に移動させ、トラフィック量を減少させるインネットワークアグリゲーション(ina)が導入されている。
しかし、スイッチメモリは分散トレーニングで伝送される勾配の体積に比べて少ない。
このミスマッチに対処するために、文献はプールベースのストリーミングや動的共有のような手法を適用するが、スイッチメモリはパフォーマンスのボトルネックになり得る。
さらに,近年の作業において,アグリゲータ・デコロケーションの同期要求によるスイッチメモリのアンダーユース化を観測した。
In-Network $\underline{A}$ggregationに対して、スイッチメモリの利用を改善するために、ESA、$\underline{E}$fficient Switch Memory $\underline{S}$chedulerを提案する。
ESAはプリエンプティブアグリゲータ割り当てプリミティブを強制し、データプレーンに優先度スケジューリングを導入し、スイッチメモリの利用率と平均ジョブ完了時間(JCT)を改善する。
実験の結果、ESAは平均的なJCTを最大$1.35\times$で改善できることがわかった。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training [16.560270624096706]
大規模言語モデルの分散学習に適したメモリ効率最適化アルゴリズムを提案する。
本手法は、勾配計算と通信の並列実行に固有の1ステップ遅れを軽減する新しい手法に依存する。
論文 参考訳(メタデータ) (2024-06-03T08:23:45Z) - Improved Robustness and Hyperparameter Selection in the Dense Associative Memory [1.2289361708127877]
Dense Associative Memoryは、よりシャープな相互作用関数を可能にすることでホップフィールドネットワークを一般化する。
しかし、ネットワークの実装は、メモリベクトルとプローブベクトルのドット積に大きな指数を適用することに依存している。
計算問題を詳細に記述し、元のネットワーク記述を変更して問題を緩和し、その修正がネットワークのダイナミクスを変えないことを示す。
論文 参考訳(メタデータ) (2024-05-29T01:23:19Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Accelerating Transfer Learning with Near-Data Computation on Cloud Object Stores [4.774170751209782]
我々は、転送学習(TL)に着目して、MLトレーニングがストレージのプッシュダウンにどう影響するかを示す。
本稿では,分解に伴う課題に対処する2つの補完技術を中心に,新たなTL処理システムであるHAPIを提案する。
論文 参考訳(メタデータ) (2022-10-16T22:28:36Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Layer-Parallel Training of Residual Networks with Auxiliary-Variable
Networks [28.775355111614484]
補助変数法は近年、多くの関心を集めているが、通信オーバーヘッドとデータ拡張の欠如に悩まされている。
本稿では,複数のコンピュータデバイスにまたがる現実的なResNetを学習するための新しい共同学習フレームワークを提案する。
CIFAR-10, CIFAR-100, ImageNetデータセットにまたがるResNetsおよびWideResNetsにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2021-12-10T08:45:35Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。