論文の概要: Automatic Task Parallelization of Dataflow Graphs in ML/DL models
- arxiv url: http://arxiv.org/abs/2308.11192v1
- Date: Tue, 22 Aug 2023 04:54:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 13:44:13.049472
- Title: Automatic Task Parallelization of Dataflow Graphs in ML/DL models
- Title(参考訳): ML/DLモデルにおけるデータフローグラフの自動タスク並列化
- Authors: Srinjoy Das, Lawrence Rauchwerger
- Abstract要約: 本稿では,MLデータフローグラフに固有の並列パスを利用する線形クラスタリング手法を提案する。
我々はONNX形式で入力MLモデルから可読かつ実行可能な並列Pytorch+Pythonコードを生成する。
いくつかのMLグラフの予備結果は、シリアル実行よりも1.9$times$スピードアップである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Several methods exist today to accelerate Machine Learning(ML) or
Deep-Learning(DL) model performance for training and inference. However, modern
techniques that rely on various graph and operator parallelism methodologies
rely on search space optimizations which are costly in terms of power and
hardware usage. Especially in the case of inference, when the batch size is 1
and execution is on CPUs or for power-constrained edge devices, current
techniques can become costly, complicated or inapplicable. To ameliorate this,
we present a Critical-Path-based Linear Clustering approach to exploit inherent
parallel paths in ML dataflow graphs. Our task parallelization approach further
optimizes the structure of graphs via cloning and prunes them via constant
propagation and dead-code elimination. Contrary to other work, we generate
readable and executable parallel Pytorch+Python code from input ML models in
ONNX format via a new tool that we have built called {\bf Ramiel}. This allows
us to benefit from other downstream acceleration techniques like intra-op
parallelism and potentially pipeline parallelism. Our preliminary results on
several ML graphs demonstrate up to 1.9$\times$ speedup over serial execution
and outperform some of the current mechanisms in both compile and runtimes.
Lastly, our methods are lightweight and fast enough so that they can be used
effectively for power and resource-constrained devices, while still enabling
downstream optimizations.
- Abstract(参考訳): トレーニングと推論のための機械学習(ml)またはディープラーニング(dl)モデルのパフォーマンスを加速するいくつかの方法が現在存在している。
しかし、様々なグラフや演算子並列化手法に依存する現代的な手法は、電力とハードウェアのコストのかかる探索空間の最適化に依存している。
特に推論の場合、バッチサイズが1でCPUや電力制約のあるエッジデバイス上での実行の場合、現在の技術はコストがかかり、複雑、あるいは適用不能になる可能性がある。
これを改善するために、MLデータフローグラフに固有の並列パスを利用するクリティカルパスベースの線形クラスタリング手法を提案する。
タスク並列化手法は, グラフのクローン化による構造を最適化し, 一定の伝播とデッドコード除去を施す。
他の作業とは対照的に、我々は"bf ramiel"と呼ばれる新しいツールを使って、入力mlモデルからonnxフォーマットで読みやすく実行可能な並列pytorch+pythonコードを生成する。
これにより、オプト内並列性やパイプライン並列性など、他のダウンストリームアクセラレーション技術の恩恵を受けることができます。
いくつかのmlグラフの予備結果は、シリアル実行よりも最大1.9$\times$ speedupを示し、コンパイルと実行の両方で現在のメカニズムを上回っています。
最後に,本手法は軽量かつ高速であり,電力・資源制約のあるデバイスに効果的に利用でき,下流での最適化も可能である。
関連論文リスト
- Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - MAP: Memory-aware Automated Intra-op Parallel Training For Foundation
Models [15.256207550970501]
我々は PyTorch 上に構築された MAP を紹介した。
MAPは既存の手法と比較して、任意のPyTorchモデルのメモリおよび計算統計を生成するのに使いやすいシンボリックプロファイラを提供する。
論文 参考訳(メタデータ) (2023-02-06T07:22:49Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Accurate, Efficient and Scalable Training of Graph Neural Networks [9.569918335816963]
グラフニューラルネットワーク(GNN)は、グラフ上にノード埋め込みを生成する強力なディープラーニングモデルである。
効率的でスケーラブルな方法でトレーニングを実行することは依然として困難です。
本稿では,最先端のミニバッチ手法と比較して,トレーニング負荷を桁違いに削減する新しい並列トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-05T22:06:23Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - Taskflow: A Lightweight Parallel and Heterogeneous Task Graph Computing
System [12.813275501138193]
Taskflowは、軽量なタスクグラフベースのアプローチを使用して、並列および異種アプリケーションの構築を合理化することを目的としている。
我々のプログラミングモデルは、グラフ内制御フローを伴うタスクグラフ並列性の非常に一般的なクラスとして、自分自身を区別する。
我々は実世界のアプリケーションでTaskflowの有望な性能を実証した。
論文 参考訳(メタデータ) (2020-04-23T00:21:05Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。