論文の概要: Efficient Data-Plane Memory Scheduling for In-Network Aggregation
- arxiv url: http://arxiv.org/abs/2201.06398v1
- Date: Mon, 17 Jan 2022 13:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 17:07:08.615281
- Title: Efficient Data-Plane Memory Scheduling for In-Network Aggregation
- Title(参考訳): ネットワーク内集約のための効率的なデータプレーンメモリスケジューリング
- Authors: Hao Wang, Yuxuan Qin, ChonLam Lao, Yanfang Le, Wenfei Wu, Kai Chen
- Abstract要約: 我々は、$underlineE$fficient Switch Memory $underlineS$cheduler for In-Network $underlineA$ggregationを提案する。
コアでは、ESAはアグリゲータ割り当てプリミティブを強制し、データプレーンで優先度スケジューリングを導入する。
実験の結果、ESAは平均的なJCTを最大$1.35タイムで改善できることがわかった。
- 参考スコア(独自算出の注目度): 14.52822604368543
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As the scale of distributed training grows, communication becomes a
bottleneck. To accelerate the communication, recent works introduce In-Network
Aggregation (INA), which moves the gradients summation into network
middle-boxes, e.g., programmable switches to reduce the traffic volume.
However, switch memory is scarce compared to the volume of gradients
transmitted in distributed training. Although literature applies methods like
pool-based streaming or dynamic sharing to tackle the mismatch, switch memory
is still a potential performance bottleneck. Furthermore, we observe the
under-utilization of switch memory due to the synchronization requirement for
aggregator deallocation in recent works. To improve the switch memory
utilization, we propose ESA, an $\underline{E}$fficient Switch Memory
$\underline{S}$cheduler for In-Network $\underline{A}$ggregation. At its cores,
ESA enforces the preemptive aggregator allocation primitive and introduces
priority scheduling at the data-plane, which improves the switch memory
utilization and average job completion time (JCT). Experiments show that ESA
can improve the average JCT by up to $1.35\times$.
- Abstract(参考訳): 分散トレーニングの規模が大きくなると、コミュニケーションはボトルネックになる。
通信を加速するために、最近の研究では、勾配和をネットワークの中間ボックス(例えばプログラマブルスイッチ)に移動させ、トラフィック量を減少させるインネットワークアグリゲーション(ina)が導入されている。
しかし、スイッチメモリは分散トレーニングで伝送される勾配の体積に比べて少ない。
このミスマッチに対処するために、文献はプールベースのストリーミングや動的共有のような手法を適用するが、スイッチメモリはパフォーマンスのボトルネックになり得る。
さらに,近年の作業において,アグリゲータ・デコロケーションの同期要求によるスイッチメモリのアンダーユース化を観測した。
In-Network $\underline{A}$ggregationに対して、スイッチメモリの利用を改善するために、ESA、$\underline{E}$fficient Switch Memory $\underline{S}$chedulerを提案する。
ESAはプリエンプティブアグリゲータ割り当てプリミティブを強制し、データプレーンに優先度スケジューリングを導入し、スイッチメモリの利用率と平均ジョブ完了時間(JCT)を改善する。
実験の結果、ESAは平均的なJCTを最大$1.35\times$で改善できることがわかった。
関連論文リスト
- UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Fast Distributed Inference Serving for Large Language Models [12.682341873843882]
大規模言語モデル(LLM)は、ChatGPTで実証された対話型AIアプリケーションの新しい世代のパワーである。
これらのアプリケーションのインタラクティブな性質は、モデル推論に低いジョブ完了時間(JCT)を必要とする。
LLMのための分散推論サービスシステムであるFastServeについて述べる。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - Accelerating Transfer Learning with Near-Data Computation on Cloud
Object Stores [5.057544107331778]
本稿では,移動学習(TL)を分散クラウドの自然な適合性として同定する。
本稿では、TLの微調整フェーズのユニークな構造を利用して、上記の制約に柔軟に対処する方法を示す。
我々は,ユーザに対して透過的なまま,計算層とストレージ層にまたがるTL処理システムであるHAPIを提案する。
論文 参考訳(メタデータ) (2022-10-16T22:28:36Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Layer-Parallel Training of Residual Networks with Auxiliary-Variable
Networks [28.775355111614484]
補助変数法は近年、多くの関心を集めているが、通信オーバーヘッドとデータ拡張の欠如に悩まされている。
本稿では,複数のコンピュータデバイスにまたがる現実的なResNetを学習するための新しい共同学習フレームワークを提案する。
CIFAR-10, CIFAR-100, ImageNetデータセットにまたがるResNetsおよびWideResNetsにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2021-12-10T08:45:35Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Dataflow Aware Mapping of Convolutional Neural Networks Onto Many-Core
Platforms With Network-on-Chip Interconnect [0.0764671395172401]
マシンインテリジェンス、特に畳み込みニューラルネットワーク(CNN)は、ここ数年で大きな研究領域となっている。
複数の同質なコアで構成される多コアプラットフォームは、データフローマッピングの労力の増大を犠牲にして、物理実装に関する制限を緩和することができる。
この作業は、最小限のランタイムと最小限のオフチップメモリアクセスに対して、最適化目標の異なるシングルコアレベルから始まる自動マッピング戦略を示す。
この戦略は、適切なマルチコアマッピング方式に拡張され、ネットワークオンチップ相互接続によるスケーラブルなシステムレベルシミュレーションを用いて評価される。
論文 参考訳(メタデータ) (2020-06-18T17:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。