Fugu-MT 論文翻訳(概要): BFTrainer: Low-Cost Training of Neural Networks on Unfillable Supercomputer Nodes

論文の概要: BFTrainer: Low-Cost Training of Neural Networks on Unfillable Supercomputer Nodes

arxiv url: http://arxiv.org/abs/2106.12091v1
Date: Tue, 22 Jun 2021 22:53:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-24 15:12:12.131040
Title: BFTrainer: Low-Cost Training of Neural Networks on Unfillable Supercomputer Nodes
Title（参考訳）: BFTrainer: 満たせないスーパーコンピュータノード上のニューラルネットワークの低コストトレーニング
Authors: Zhengchun Liu, Rajkumar Kettimuthu, Michael E. Papka, Ian Foster
Abstract要約: FCFSベースのスケジューリングポリシーは、多くの一時的なアイドルノードをもたらす。我々は、これらの無駄なリソース、すなわちディープニューラルネットワーク(DNN)トレーニングに対して、新しい用途を実現する方法を示す。
参考スコア（独自算出の注目度）: 0.8201100713224002
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Supercomputer FCFS-based scheduling policies result in many transient idle nodes, a phenomenon that is only partially alleviated by backfill scheduling methods that promote small jobs to run before large jobs. Here we describe how to realize a novel use for these otherwise wasted resources, namely, deep neural network (DNN) training. This important workload is easily organized as many small fragments that can be configured dynamically to fit essentially any node*time hole in a supercomputer's schedule. We describe how the task of rescaling suitable DNN training tasks to fit dynamically changing holes can be formulated as a deterministic mixed integer linear programming (MILP)-based resource allocation algorithm, and show that this MILP problem can be solved efficiently at run time. We show further how this MILP problem can be adapted to optimize for administrator- or user-defined metrics. We validate our method with supercomputer scheduler logs and different DNN training scenarios, and demonstrate efficiencies of up to 93% compared with running the same training tasks on dedicated nodes. Our method thus enables substantial supercomputer resources to be allocated to DNN training with no impact on other applications.
Abstract（参考訳）: スーパーコンピュータfcfsベースのスケジューリングポリシーは、多くの過渡的アイドルノードを生み出し、大きなジョブの前に小さなジョブを実行するように促すバックフィルスケジューリング手法によって部分的に緩和される。本稿では,これら不要なリソース,すなわちディープニューラルネットワーク(dnn)トレーニングの新規利用を実現する方法について述べる。この重要なワークロードは、スーパーコンピュータのスケジュールのノード*時間ホールに本質的に適合するように動的に設定できる、多数の小さなフラグメントとして簡単に構成できる。本稿では,動的に変化するホールに適合する適切なdnnトレーニングタスクの再スケーリングタスクを決定論的混合整数線形計画法(milp)に基づく資源割当アルゴリズムとして定式化し,このmilp問題を実行時に効率的に解くことができることを示す。このMILP問題を,管理者やユーザ定義メトリクスの最適化にどのように適用できるかを示す。提案手法をスーパーコンピュータスケジューラログと異なるDNNトレーニングシナリオを用いて検証し,専用ノード上で同じトレーニングタスクを実行する場合と比較して最大93%の効率性を示す。そこで本手法では,他のアプリケーションに影響を与えずに,DNNトレーニングに相当量のスーパーコンピュータリソースを割り当てることができる。

関連論文リスト

Optimal Gradient Checkpointing for Sparse and Recurrent Architectures using Off-Chip Memory [0.8321953606016751]
本稿では,スパースRNNとスパイキングニューラルネットワークの一般クラスに適したメモリ効率の高い勾配チェックポイント戦略を提案する。再計算のオーバーヘッドを最小限に抑えながら、ローカルメモリリソースの使用を最適化し、Double Checkpointingが最も効果的な方法であることが判明した。
論文参考訳（メタデータ） (2024-12-16T14:23:31Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
On-Device Training of Fully Quantized Deep Neural Networks on Cortex-M Microcontrollers [4.370731001036268]
本稿では,完全量子化トレーニング(FQT)と動的部分勾配更新を用いて,MCU上でDNNの効率的なトレーニングを可能にする手法を提案する。マルチビジョンと時系列データセットに対するアプローチの実現可能性を示し、トレーニング精度、メモリオーバーヘッド、エネルギ、実際のハードウェアでのレイテンシのトレードオフに関する洞察を提供する。
論文参考訳（メタデータ） (2024-07-15T14:01:34Z)
DNN Partitioning, Task Offloading, and Resource Allocation in Dynamic Vehicular Networks: A Lyapunov-Guided Diffusion-Based Reinforcement Learning Approach [49.56404236394601]
本稿では,Vehicular Edge Computingにおける共同DNNパーティショニング,タスクオフロード,リソース割り当ての問題を定式化する。我々の目標は、時間とともにシステムの安定性を保証しながら、DNNベースのタスク完了時間を最小化することである。拡散モデルの革新的利用を取り入れたマルチエージェント拡散に基づく深層強化学習(MAD2RL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-11T06:31:03Z)
Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文参考訳（メタデータ） (2023-10-17T09:25:17Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Scalable Resource Management for Dynamic MEC: An Unsupervised Link-Output Graph Neural Network Approach [36.32772317151467]
ディープラーニングは、タスクオフロードとリソース割り当てを最適化するために、モバイルエッジコンピューティング(MEC)でうまく採用されている。エッジネットワークのダイナミクスは、低スケーラビリティと高トレーニングコストという、ニューラルネットワーク(NN)ベースの最適化方法における2つの課題を提起する。本稿では,新たなリンクアウトプットGNN(LOGNN)ベースの資源管理手法を提案し,MECにおける資源割り当てを柔軟に最適化する。
論文参考訳（メタデータ） (2023-06-15T08:21:41Z)
Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。提案するフレームワークは,合理的な性能で高い効率性を示す。
論文参考訳（メタデータ） (2023-04-20T07:21:32Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Trainable Weight Averaging: A General Approach for Subspace Training [20.58652836107849]
低次元サブスペースにおけるディープニューラルネットワーク(DNN)のトレーニングは、効率的なトレーニングとより良いパフォーマンスを達成する上で有望な方向である。サブスペーストレーニングのための一般的なアプローチであるemphTrainable Weight Averaging (TWA)を提案する。 TWAは部分空間抽出の点で効率的であり、一般化が容易である。
論文参考訳（メタデータ） (2022-05-26T01:54:48Z)
Effective Elastic Scaling of Deep Learning Workloads [3.345876096131764]
大規模学習プラットフォーム上でのDeep Learning(DL)ジョブの弾性スケーリングについて検討する。本稿では,DLトレーニングジョブのための新たなリソース割り当て戦略を提案する。これにより,ジョブ実行時間の性能が向上し,クラスタ利用が向上する。
論文参考訳（メタデータ） (2020-06-24T17:01:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。