Fugu-MT 論文翻訳(概要): Tessel: Boosting Distributed Execution of Large DNN Models via Flexible Schedule Search

論文の概要: Tessel: Boosting Distributed Execution of Large DNN Models via Flexible Schedule Search

arxiv url: http://arxiv.org/abs/2311.15269v1
Date: Sun, 26 Nov 2023 11:40:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 18:33:59.325574
Title: Tessel: Boosting Distributed Execution of Large DNN Models via Flexible Schedule Search
Title（参考訳）: Tessel: フレキシブルスケジュール検索による大規模DNNモデルの分散実行促進
Authors: Zhiqi Lin, Youshan Miao, Guanbin Xu, Cheng Li, Olli Saarikivi, Saeed Maleki, Fan Yang
Abstract要約: Tesselは、分散DNNトレーニングと推論のための効率的なスケジュールを検索する自動化システムである。様々なオペレータ配置戦略のスケジュールを探索することで、テッセルはトレーニングと推論性能の両方を大幅に改善する。
参考スコア（独自算出の注目度）: 9.545482248215835
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Increasingly complex and diverse deep neural network (DNN) models necessitate distributing the execution across multiple devices for training and inference tasks, and also require carefully planned schedules for performance. However, existing practices often rely on predefined schedules that may not fully exploit the benefits of emerging diverse model-aware operator placement strategies. Handcrafting high-efficiency schedules can be challenging due to the large and varying schedule space. This paper presents Tessel, an automated system that searches for efficient schedules for distributed DNN training and inference for diverse operator placement strategies. To reduce search costs, Tessel leverages the insight that the most efficient schedules often exhibit repetitive pattern (repetend) across different data inputs. This leads to a two-phase approach: repetend construction and schedule completion. By exploring schedules for various operator placement strategies, Tessel significantly improves both training and inference performance. Experiments with representative DNN models demonstrate that Tessel achieves up to 5.5x training performance speedup and up to 38% inference latency reduction.
Abstract（参考訳）: ますます複雑で多様なディープニューラルネットワーク(dnn)モデルは、トレーニングや推論タスクのために複数のデバイスに分散し、パフォーマンスのために注意深く計画されたスケジュールを必要とする。しかしながら、既存のプラクティスは、新興の多様なモデル認識オペレータ配置戦略の利点を十分に活用しない、事前定義されたスケジュールに依存することが多い。大規模かつ多様なスケジュール空間のため、手作りの高効率スケジュールは困難である。本稿では,分散dnnトレーニングのための効率的なスケジュール検索と,多様なオペレータ配置戦略のための推論を行う自動システムであるtesselを提案する。検索コストを削減するため、Tessel氏は、最も効率的なスケジュールは、異なるデータ入力に対して繰り返しパターン(繰り返し)を示すことが多いという洞察を活用している。これは2段階のアプローチにつながる: 繰り返しの建設とスケジュールの完了。様々なオペレータ配置戦略のスケジュールを調べることで、テッセルはトレーニングと推論のパフォーマンスを著しく改善する。代表的DNNモデルによる実験では、Tesselは最大5.5倍のトレーニング性能向上と最大38%の推論遅延削減を実現している。

関連論文リスト

Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters [24.845122459974466]
本稿では,A-SRPT(Adaptive Shortest-Remaining-Time-first)スケジューリングアルゴリズムを提案する。ヘテロジニアスディープニューラルネットワーク(DNN)モデルに対応するグラフとして各ジョブをモデル化することにより、A-SRPTはジョブを利用可能なGPUに戦略的に割り当てる。 A-SRPTは複雑なスケジューリング問題を単一マシンのインスタンスにマッピングし、プリエンプティブな "shortest-remaining-processing-time-first" 戦略によって最適に対処する。
論文参考訳（メタデータ） (2025-01-09T20:19:01Z)
DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [59.96455188197593]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。 DRPruningは、トレーニング中にデータ分散を動的に調整し、不均一なマルチタスクデータ間でのバランス性能を回復する手法である。単言語および多言語設定の実験では、DRPランニングはプルーニングと継続トレーニングの両方において同様の大きさのモデルを上回ることが示されている。
論文参考訳（メタデータ） (2024-11-21T12:02:39Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。 DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文参考訳（メタデータ） (2024-10-09T05:16:44Z)
Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner [12.360598915420255]
拡散モデルはマルチタスクの軌跡をモデル化する能力を示した。既存のマルチタスクプランナやポリシーは、通常、マルチタスクの模倣によるタスク固有のデモンストレーションや、タスク固有の報酬ラベルを必要とする。本稿では,タスク非依存の準最適軌道を含む大規模劣等データを活用する多目的拡散プランナを提案する。
論文参考訳（メタデータ） (2024-09-30T05:05:37Z)
Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文参考訳（メタデータ） (2023-10-17T09:25:17Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
Mind the (optimality) Gap: A Gap-Aware Learning Rate Scheduler for Adversarial Nets [3.8073142980733]
生成モデリング(GAN)を含む様々な領域において、敵ネットが強力であることが証明された。本稿では,適切なバランスを維持するために,相手の学習率を動的に適応させる新しい学習率スケジューラを設計する。我々は、画像生成のためのGANとドメイン適応のための対角ネットの2つの一般的な用途におけるスケジューラの有効性について、大規模な実験を行った。
論文参考訳（メタデータ） (2023-01-31T20:36:40Z)
HARL: Hierarchical Adaptive Reinforcement Learning Based Auto Scheduler for Neural Networks [51.71682428015139]
効率的なテンソルプログラム探索のための強化学習に基づく自動スケジューリングシステムであるHARLを提案する。 HarLは、最先端のオートスケジューラと比較して、テンソル演算子の性能を22%改善し、探索速度を4.3倍改善する。また、エンドツーエンドのニューラルネットワークでは、推論性能と探索速度も大幅に向上する。
論文参考訳（メタデータ） (2022-11-21T04:15:27Z)
dPRO: A Generic Profiling and Optimization System for Expediting Distributed DNN Training [12.413533491501548]
本稿では,分散トレーニングシステムの性能ボトルネックを特定するツールとして,dPROを提案する。我々は,複数のディープラーニングフレームワーク(PyTorch,MXNet,AllReduce,Serverアーキテクチャ)と代表的通信方式にdPROを実装した。大規模な実験により、dPROは、ほとんどのケースで5%のエラーで様々な環境での分散トレーニングのパフォーマンスを予測し、ベースラインを最大87.1%上回る最適化戦略を見出した。
論文参考訳（メタデータ） (2022-05-05T07:15:25Z)
Efficient Device Scheduling with Multi-Job Federated Learning [64.21733164243781]
本稿では,複数のジョブの並列学習プロセスを実現するための,新しいマルチジョブフェデレーション学習フレームワークを提案する。コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。提案手法は,トレーニング時間(最大8.67倍高速)と精度(最大44.6%高)において,ベースラインアプローチよりも有意に優れていた。
論文参考訳（メタデータ） (2021-12-11T08:05:11Z)
CoSA: Scheduling by Constrained Optimization for Spatial Accelerators [1.9149970150912705]
我々は、Deep Neural Networks(DNN)アクセラレーターをスケジューリングするための制約最適化に基づくアプローチであるCoSAを提案する。探索空間をナビゲートするデザイナの手法や反復的な手法に依存する既存のアプローチとは対照的に、CoSAはスケジューリング決定を制約最適化問題として表現している。 CoSA生成スケジュールは、最大2.5xの幾何学平均で最先端のアプローチを大幅に上回ることを実証します。
論文参考訳（メタデータ） (2021-05-05T07:17:25Z)
Auto-MAP: A DQN Framework for Exploring Distributed Execution Plans for DNN Workloads [11.646744408920764]
Auto-MAPはワークロードの分散実行計画を探索するフレームワークである。ディープラーニングモデルのIRレベルの強化学習を通じて、高速な並列化戦略を自動的に発見することができる。評価の結果,Auto-MAPは複数のNLPおよび畳み込みモデルにおいて,より優れたスループットを実現しつつ,最適解を2時間以内に見つけることができることがわかった。
論文参考訳（メタデータ） (2020-07-08T12:38:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。