論文の概要: BFTrainer: Low-Cost Training of Neural Networks on Unfillable
Supercomputer Nodes
- arxiv url: http://arxiv.org/abs/2106.12091v1
- Date: Tue, 22 Jun 2021 22:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:12:12.131040
- Title: BFTrainer: Low-Cost Training of Neural Networks on Unfillable
Supercomputer Nodes
- Title(参考訳): BFTrainer: 満たせないスーパーコンピュータノード上のニューラルネットワークの低コストトレーニング
- Authors: Zhengchun Liu, Rajkumar Kettimuthu, Michael E. Papka, Ian Foster
- Abstract要約: FCFSベースのスケジューリングポリシーは、多くの一時的なアイドルノードをもたらす。
我々は、これらの無駄なリソース、すなわちディープニューラルネットワーク(DNN)トレーニングに対して、新しい用途を実現する方法を示す。
- 参考スコア(独自算出の注目度): 0.8201100713224002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supercomputer FCFS-based scheduling policies result in many transient idle
nodes, a phenomenon that is only partially alleviated by backfill scheduling
methods that promote small jobs to run before large jobs. Here we describe how
to realize a novel use for these otherwise wasted resources, namely, deep
neural network (DNN) training. This important workload is easily organized as
many small fragments that can be configured dynamically to fit essentially any
node*time hole in a supercomputer's schedule. We describe how the task of
rescaling suitable DNN training tasks to fit dynamically changing holes can be
formulated as a deterministic mixed integer linear programming (MILP)-based
resource allocation algorithm, and show that this MILP problem can be solved
efficiently at run time. We show further how this MILP problem can be adapted
to optimize for administrator- or user-defined metrics. We validate our method
with supercomputer scheduler logs and different DNN training scenarios, and
demonstrate efficiencies of up to 93% compared with running the same training
tasks on dedicated nodes. Our method thus enables substantial supercomputer
resources to be allocated to DNN training with no impact on other applications.
- Abstract(参考訳): スーパーコンピュータfcfsベースのスケジューリングポリシーは、多くの過渡的アイドルノードを生み出し、大きなジョブの前に小さなジョブを実行するように促すバックフィルスケジューリング手法によって部分的に緩和される。
本稿では,これら不要なリソース,すなわちディープニューラルネットワーク(dnn)トレーニングの新規利用を実現する方法について述べる。
この重要なワークロードは、スーパーコンピュータのスケジュールのノード*時間ホールに本質的に適合するように動的に設定できる、多数の小さなフラグメントとして簡単に構成できる。
本稿では,動的に変化するホールに適合する適切なdnnトレーニングタスクの再スケーリングタスクを決定論的混合整数線形計画法(milp)に基づく資源割当アルゴリズムとして定式化し,このmilp問題を実行時に効率的に解くことができることを示す。
このMILP問題を,管理者やユーザ定義メトリクスの最適化にどのように適用できるかを示す。
提案手法をスーパーコンピュータスケジューラログと異なるDNNトレーニングシナリオを用いて検証し,専用ノード上で同じトレーニングタスクを実行する場合と比較して最大93%の効率性を示す。
そこで本手法では,他のアプリケーションに影響を与えずに,DNNトレーニングに相当量のスーパーコンピュータリソースを割り当てることができる。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - On-Device Training of Fully Quantized Deep Neural Networks on Cortex-M Microcontrollers [4.370731001036268]
本稿では,完全量子化トレーニング(FQT)と動的部分勾配更新を用いて,MCU上でDNNの効率的なトレーニングを可能にする手法を提案する。
マルチビジョンと時系列データセットに対するアプローチの実現可能性を示し、トレーニング精度、メモリオーバーヘッド、エネルギ、実際のハードウェアでのレイテンシのトレードオフに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-07-15T14:01:34Z) - DNN Partitioning, Task Offloading, and Resource Allocation in Dynamic Vehicular Networks: A Lyapunov-Guided Diffusion-Based Reinforcement Learning Approach [49.56404236394601]
本稿では,Vehicular Edge Computingにおける共同DNNパーティショニング,タスクオフロード,リソース割り当ての問題を定式化する。
我々の目標は、時間とともにシステムの安定性を保証しながら、DNNベースのタスク完了時間を最小化することである。
拡散モデルの革新的利用を取り入れたマルチエージェント拡散に基づく深層強化学習(MAD2RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T06:31:03Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Scalable Resource Management for Dynamic MEC: An Unsupervised
Link-Output Graph Neural Network Approach [36.32772317151467]
ディープラーニングは、タスクオフロードとリソース割り当てを最適化するために、モバイルエッジコンピューティング(MEC)でうまく採用されている。
エッジネットワークのダイナミクスは、低スケーラビリティと高トレーニングコストという、ニューラルネットワーク(NN)ベースの最適化方法における2つの課題を提起する。
本稿では,新たなリンクアウトプットGNN(LOGNN)ベースの資源管理手法を提案し,MECにおける資源割り当てを柔軟に最適化する。
論文 参考訳(メタデータ) (2023-06-15T08:21:41Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Trainable Weight Averaging: A General Approach for Subspace Training [20.58652836107849]
低次元サブスペースにおけるディープニューラルネットワーク(DNN)のトレーニングは、効率的なトレーニングとより良いパフォーマンスを達成する上で有望な方向である。
サブスペーストレーニングのための一般的なアプローチであるemphTrainable Weight Averaging (TWA)を提案する。
TWAは部分空間抽出の点で効率的であり、一般化が容易である。
論文 参考訳(メタデータ) (2022-05-26T01:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。