Fugu-MT 論文翻訳(概要): TAP: Accelerating Large-Scale DNN Training Through Tensor Automatic Parallelisation

論文の概要: TAP: Accelerating Large-Scale DNN Training Through Tensor Automatic Parallelisation

arxiv url: http://arxiv.org/abs/2302.00247v1
Date: Wed, 1 Feb 2023 05:22:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-02 13:24:04.797206
Title: TAP: Accelerating Large-Scale DNN Training Through Tensor Automatic Parallelisation
Title（参考訳）: TAP: テンソル自動並列化による大規模DNNトレーニングの高速化
Authors: Ziji Shi, Le Jiang, Ang Wang, Jie Zhang, Xianyan Jia, Yong Li, Chencan Wu, Jialin Li, Wei Lin
Abstract要約: 本稿では,最適なデータとテンソル並列スケジュールを自動的に検索するモデル並列化フレームワークTAPを提案する。実験によると、TAPは最先端の自動並列処理フレームワークよりも20ドルから160ドル高速である。
参考スコア（独自算出の注目度）: 19.009600866053923
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Model parallelism has become necessary to train large neural networks. However, finding a suitable model parallel schedule for an arbitrary neural network is a non-trivial task due to the exploding search space. In this work, we present a model parallelism framework TAP that automatically searches for the best data and tensor parallel schedules. Leveraging the key insight that a neural network can be represented as a directed acyclic graph, within which may only exist a limited set of frequent subgraphs, we design a graph pruning algorithm to fold the search space efficiently. TAP runs at sub-linear complexity concerning the neural network size. Experiments show that TAP is $20\times- 160\times$ faster than the state-of-the-art automatic parallelism framework, and the performance of its discovered schedules is competitive with the expert-engineered ones.
Abstract（参考訳）: 大規模ニューラルネットワークのトレーニングにはモデル並列化が必要である。しかしながら、任意のニューラルネットワークに対して適切なモデル並列スケジュールを見つけることは、探索空間の爆発による非自明な作業である。本研究では,最適なデータとテンソル並列スケジュールを自動的に検索するモデル並列化フレームワークTAPを提案する。ニューラルネットワークを有向非巡回グラフとして表現できるという重要な洞察を利用して,探索空間を効率的に折り畳むためのグラフプルーニングアルゴリズムを設計した。 TAPは、ニューラルネットワークサイズに関するサブ線形複雑度で実行される。実験によると、tapは最先端の自動並列処理フレームワークよりも20\times-160\times$高速であり、検出されたスケジュールのパフォーマンスはエキスパートエンジニアリングのものと競合する。

関連論文リスト

Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters [24.845122459974466]
本稿では,A-SRPT(Adaptive Shortest-Remaining-Time-first)スケジューリングアルゴリズムを提案する。ヘテロジニアスディープニューラルネットワーク(DNN)モデルに対応するグラフとして各ジョブをモデル化することにより、A-SRPTはジョブを利用可能なGPUに戦略的に割り当てる。 A-SRPTは複雑なスケジューリング問題を単一マシンのインスタンスにマッピングし、プリエンプティブな "shortest-remaining-processing-time-first" 戦略によって最適に対処する。
論文参考訳（メタデータ） (2025-01-09T20:19:01Z)
Testing RadiX-Nets: Advances in Viable Sparse Topologies [0.9555447998395205]
ハイパーパラメタライズドディープニューラルネットワーク(DNN)のスパシフィケーションは、複雑なデータのより単純な表現を生成する。 DNNのサブグループであるRadiX-Netsは、ニューラルネットワークの欠如に対処するランタイムを維持している。本稿では,スケーラブルモデルにおけるRadiX-Netsのテストスイートを提案する。
論文参考訳（メタデータ） (2023-11-06T23:27:28Z)
T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文参考訳（メタデータ） (2023-10-05T02:58:29Z)
How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文参考訳（メタデータ） (2023-06-04T08:53:27Z)
HARL: Hierarchical Adaptive Reinforcement Learning Based Auto Scheduler for Neural Networks [51.71682428015139]
効率的なテンソルプログラム探索のための強化学習に基づく自動スケジューリングシステムであるHARLを提案する。 HarLは、最先端のオートスケジューラと比較して、テンソル演算子の性能を22%改善し、探索速度を4.3倍改善する。また、エンドツーエンドのニューラルネットワークでは、推論性能と探索速度も大幅に向上する。
論文参考訳（メタデータ） (2022-11-21T04:15:27Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
DistIR: An Intermediate Representation and Simulator for Efficient Neural Network Distribution [15.086401550425125]
DistIRは分散計算のための表現であり、効率的な解析のために調整されている。本研究では、DistIRとそのシミュレータが1000以上の構成にまたがる複雑な分散空間を高速にグリッドで探索する方法を示す。
論文参考訳（メタデータ） (2021-11-09T21:32:51Z)
A quantum algorithm for training wide and deep classical neural networks [72.2614468437919]
勾配勾配勾配による古典的トレーサビリティに寄与する条件は、量子線形系を効率的に解くために必要な条件と一致することを示す。 MNIST画像データセットがそのような条件を満たすことを数値的に示す。我々は、プールを用いた畳み込みニューラルネットワークのトレーニングに$O(log n)$の実証的証拠を提供する。
論文参考訳（メタデータ） (2021-07-19T23:41:03Z)
Mitigating Performance Saturation in Neural Marked Point Processes: Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文参考訳（メタデータ） (2021-07-07T16:59:14Z)
Parareal Neural Networks Emulating a Parallel-in-time Algorithm [1.988145627448243]
ディープニューラルネットワーク(DNN)が深まるにつれて、トレーニング時間が増加する。本稿では,並列ニューラルネットワークを構築するための新しい手法を提案する。
論文参考訳（メタデータ） (2021-03-16T02:03:39Z)
Auto-MAP: A DQN Framework for Exploring Distributed Execution Plans for DNN Workloads [11.646744408920764]
Auto-MAPはワークロードの分散実行計画を探索するフレームワークである。ディープラーニングモデルのIRレベルの強化学習を通じて、高速な並列化戦略を自動的に発見することができる。評価の結果,Auto-MAPは複数のNLPおよび畳み込みモデルにおいて,より優れたスループットを実現しつつ,最適解を2時間以内に見つけることができることがわかった。
論文参考訳（メタデータ） (2020-07-08T12:38:03Z)
A Linear Algebraic Approach to Model Parallelism in Deep Learning [0.0]
ネットワークのサイズと複雑さが大きくなるにつれて、大規模クラスタコンピューティング環境でのディープニューラルネットワーク(DNN)のトレーニングがますます必要になる。深層学習における並列性をモデル化するための線形代数的手法を提案し,DNNにおけるテンソルの並列分布を実現する。本研究では,これらの並列プリミティブを用いて分散DNN層を構築し,PyTorchおよびMPIベースの分散ディープラーニングツールキットであるDistDLを用いて分散DNNを構築し,訓練することにより,それらのアプリケーションを実演する。
論文参考訳（メタデータ） (2020-06-04T19:38:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。