論文の概要: Automap: Towards Ergonomic Automated Parallelism for ML Models
- arxiv url: http://arxiv.org/abs/2112.02958v1
- Date: Mon, 6 Dec 2021 12:09:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 23:36:28.196156
- Title: Automap: Towards Ergonomic Automated Parallelism for ML Models
- Title(参考訳): automap:mlモデルの人間工学的自動並列化に向けて
- Authors: Michael Schaarschmidt and Dominik Grewe and Dimitrios Vytiniotis and
Adam Paszke and Georg Stefan Schmid and Tamara Norman and James Molloy and
Jonathan Godwin and Norman Alexander Rink and Vinod Nair and Dan Belov
- Abstract要約: 本稿では,既存のコンパイラと既存ユーザをシームレスに統合する自動パーティショナのプロトタイプを提案する。
我々のパーティショナは、データ並列性とパラメータ/アクティベーションシャーディングを含むSPMDスタイルの並列処理を可能にする。
帰納的戦術とプラットフォーム非依存のパーティショニングIRでの検索を組み合わせることで、Automapはトランスフォーマー層に対するMegatronシャーディングのような専門的なパーティショニング戦略を回復することができる。
- 参考スコア(独自算出の注目度): 2.469997094590327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid rise in demand for training large neural network architectures has
brought into focus the need for partitioning strategies, for example by using
data, model, or pipeline parallelism. Implementing these methods is
increasingly supported through program primitives, but identifying efficient
partitioning strategies requires expensive experimentation and expertise. We
present the prototype of an automated partitioner that seamlessly integrates
into existing compilers and existing user workflows. Our partitioner enables
SPMD-style parallelism that encompasses data parallelism and
parameter/activation sharding. Through a combination of inductive tactics and
search in a platform-independent partitioning IR, automap can recover expert
partitioning strategies such as Megatron sharding for transformer layers.
- Abstract(参考訳): 大規模ニューラルネットワークアーキテクチャのトレーニングに対する需要が急速に高まり、データ、モデル、パイプライン並列性などによるパーティショニング戦略の必要性が注目されるようになった。
これらのメソッドの実装は、プログラムプリミティブを通じてますますサポートされていますが、効率的な分割戦略を特定するには、高価な実験と専門知識が必要です。
既存のコンパイラや既存のユーザワークフローにシームレスに統合する自動パーティショナのプロトタイプを提示する。
我々のパーティショナは、データ並列性とパラメータ/アクティベーションシャーディングを含むSPMDスタイルの並列処理を可能にする。
帰納的戦術とプラットフォーム非依存のパーティショニングIRでの検索を組み合わせることで、Automapはトランスフォーマー層に対するMegatronシャーディングのような専門的なパーティショニング戦略を回復することができる。
関連論文リスト
- PartIR: Composing SPMD Partitioning Strategies for Machine Learning [1.1250231074374903]
NNパーティショニングシステムの設計であるPartIRについて述べる。
PartIRは書き直しに対する漸進的なアプローチに重点を置いており、ハードウェアとランタイムに依存しない。
予測可能性,表現性,ピーク性能に到達する能力を示すために,いくつかの異なるモデルでPartIRを評価した。
論文 参考訳(メタデータ) (2024-01-20T10:30:31Z) - Improving Automatic Parallel Training via Balanced Memory Workload
Optimization [36.87527680184956]
トランスフォーマーモデルは、様々なアプリケーションドメインで最先端のパフォーマンスを達成するための主要なアプローチとして現れています。
本稿では,複数の並列性を持つ次元を統合し,最も効率的なハイブリッド並列性戦略を自動的に識別する新しいシステムフレームワークであるGalvatron-BMWを提案する。
異なるTransformerモデルを用いた評価では,Galvatron-BMWがGPUメモリ制約の異なる分散トレーニングを自動化できることが示されている。
論文 参考訳(メタデータ) (2023-07-05T05:28:38Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Auto-Parallelizing Large Models with Rhino: A Systematic Approach on
Production AI Platform [15.606647290942563]
Rhinoは、実運用環境向けのAIプラットフォーム上で自動並列化を備えたテンソルプログラムを高速化するシステムである。
単一のデバイス用に書かれたテンソルプログラムを,ユーザ設定なしで数千台のデバイスにスケールアップ可能な,同等の分散プログラムに変換する。
論文 参考訳(メタデータ) (2023-02-16T08:19:56Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Automatic Discovery of Composite SPMD Partitioning Strategies in PartIR [1.2507285499419876]
本稿では,多くのモデルアーキテクチャとアクセラレータシステムのための効率的な組み合わせを同定する自動分割器を提案する。
我々の重要な発見は、Monte Carlo Tree Searchベースのパーティショナがパーティショニング固有のコンパイラ分析を直接利用し、ガイドされたゴールは、様々なモデルのエキスパートレベルの戦略と一致することである。
論文 参考訳(メタデータ) (2022-10-07T17:46:46Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - DistIR: An Intermediate Representation and Simulator for Efficient
Neural Network Distribution [15.086401550425125]
DistIRは分散計算のための表現であり、効率的な解析のために調整されている。
本研究では、DistIRとそのシミュレータが1000以上の構成にまたがる複雑な分散空間を高速にグリッドで探索する方法を示す。
論文 参考訳(メタデータ) (2021-11-09T21:32:51Z) - DHA: End-to-End Joint Optimization of Data Augmentation Policy,
Hyper-parameter and Architecture [81.82173855071312]
本稿では,AutoMLコンポーネントを統合したエンドツーエンドソリューションを提案する。
Dhaは、様々なデータセット、特にセルベースの検索空間を持つImageNetの77.4%の精度で、最先端(SOTA)結果を達成する。
論文 参考訳(メタデータ) (2021-09-13T08:12:50Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Auto-Panoptic: Cooperative Multi-Component Architecture Search for
Panoptic Segmentation [144.50154657257605]
本稿では、バックボーン、セグメンテーションブランチ、フィーチャーフュージョンモジュールを含むすべての主要コンポーネントを同時に検索する効率的なフレームワークを提案する。
検索したアーキテクチャ、すなわちAuto-Panopticは、挑戦的なCOCOとADE20Kベンチマークに関する新しい最先端技術を実現します。
論文 参考訳(メタデータ) (2020-10-30T08:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。