Fugu-MT 論文翻訳(概要): Auto-Parallelizing Large Models with Rhino: A Systematic Approach on Production AI Platform

論文の概要: Auto-Parallelizing Large Models with Rhino: A Systematic Approach on Production AI Platform

arxiv url: http://arxiv.org/abs/2302.08141v1
Date: Thu, 16 Feb 2023 08:19:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-17 14:34:46.036399
Title: Auto-Parallelizing Large Models with Rhino: A Systematic Approach on Production AI Platform
Title（参考訳）: Rhinoによる大規模モデルの自動並列化 - 生産AIプラットフォームにおけるシステム的アプローチ
Authors: Shiwei Zhang, Lansong Diao, Siyu Wang, Zongyan Cao, Yiliang Gu, Chang Si, Ziji Shi, Zhen Zheng, Chuan Wu, Wei Lin
Abstract要約: Rhinoは、実運用環境向けのAIプラットフォーム上で自動並列化を備えたテンソルプログラムを高速化するシステムである。単一のデバイス用に書かれたテンソルプログラムを,ユーザ設定なしで数千台のデバイスにスケールアップ可能な,同等の分散プログラムに変換する。
参考スコア（独自算出の注目度）: 15.606647290942563
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Rhino, a system for accelerating tensor programs with automatic parallelization on AI platform for real production environment. It transforms a tensor program written for a single device into an equivalent distributed program that is capable of scaling up to thousands of devices with no user configuration. Rhino firstly works on a semantically independent intermediate representation of tensor programs, which facilitates its generalization to unprecedented applications. Additionally, it implements a task-oriented controller and a distributed runtime for optimal performance. Rhino explores on a complete and systematic parallelization strategy space that comprises all the paradigms commonly employed in deep learning (DL), in addition to strided partitioning and pipeline parallelism on non-linear models. Aiming to efficiently search for a near-optimal parallel execution plan, our analysis of production clusters reveals general heuristics to speed up the strategy search. On top of it, two optimization levels are designed to offer users flexible trade-offs between the search time and strategy quality. Our experiments demonstrate that Rhino can not only re-discover the expert-crafted strategies of classic, research and production DL models, but also identify novel parallelization strategies which surpass existing systems for novel models.
Abstract（参考訳）: 実運用環境のためのAIプラットフォーム上で,自動並列化を備えたテンソルプログラムを高速化するシステムRhinoを提案する。単一のデバイス用に書かれたテンソルプログラムを,ユーザ設定なしで数千台のデバイスにスケールアップ可能な,同等の分散プログラムに変換する。 rhinoはまず、意味的に独立したテンソルプログラムの中間表現に取り組み、前例のない応用への一般化を促進する。さらに、タスク指向コントローラと最適なパフォーマンスのための分散ランタイムを実装している。 Rhino氏は、ディープラーニング(DL)で一般的に使用されるすべてのパラダイムと、非線形モデル上で強化されたパーティショニングとパイプライン並列化を含む、完全かつ体系的な並列化戦略空間について検討している。最適に近い並列実行計画の効率的な探索を目指して,生産クラスタの解析により,戦略探索を高速化する一般的なヒューリスティックスを明らかにする。その上、2つの最適化レベルは、ユーザーが検索時間と戦略品質の間の柔軟なトレードオフを提供するように設計されている。実験により,rhinoは,古典的,研究的,生産的dlモデルの熟練した戦略を再発見できるだけでなく,既存のシステムを超越した新しい並列化戦略を見いだせることを示した。

関連論文リスト

Galvatron: An Automatic Distributed System for Efficient Foundation Model Training [32.29213329004785]
Galvatronは大規模ファンデーションモデルを効率的にトレーニングする分散システムである。最適な並列戦略を選択する複雑さを克服し、最も効率的なハイブリッド戦略を自動的に識別する。
論文参考訳（メタデータ） (2025-04-30T08:11:45Z)
ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文参考訳（メタデータ） (2024-10-08T01:05:08Z)
ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。 ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文参考訳（メタデータ） (2023-10-30T16:55:50Z)
Improving Automatic Parallel Training via Balanced Memory Workload Optimization [36.87527680184956]
トランスフォーマーモデルは、様々なアプリケーションドメインで最先端のパフォーマンスを達成するための主要なアプローチとして現れています。本稿では,複数の並列性を持つ次元を統合し,最も効率的なハイブリッド並列性戦略を自動的に識別する新しいシステムフレームワークであるGalvatron-BMWを提案する。異なるTransformerモデルを用いた評価では,Galvatron-BMWがGPUメモリ制約の異なる分散トレーニングを自動化できることが示されている。
論文参考訳（メタデータ） (2023-07-05T05:28:38Z)
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。 textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文参考訳（メタデータ） (2023-05-29T17:25:26Z)
TAPAS: Fast and Automatic Derivation of Tensor Parallel Strategies for Large Neural Networks [27.634123904734615]
我々はTAPASという自動並列処理フレームワークを構築し、冗長な探索作業を排除した。 TAPASは、これらのユニークな部分構造を識別することによって、探索空間を効率的に折り畳む分割線形アプローチを採用している。評価の結果,TAPASは最先端の自動並列処理フレームワークを最大160倍の高速化を実現している。
論文参考訳（メタデータ） (2023-02-01T05:22:28Z)
Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。圧縮アルゴリズムの3つの共通クラスを実装し,評価する。我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文参考訳（メタデータ） (2023-01-06T18:58:09Z)
Exploring Techniques for the Analysis of Spontaneous Asynchronicity in MPI-Parallel Applications [0.8889304968879161]
マイクロベンチマークと現実的なプロキシアプリケーションを,2つの異なるスーパーコンピュータプラットフォーム上で通常の計算通信構造で実行します。完全MPIトレースよりもはるかに小さいデータセットから,デシンクロナイゼーションパターンを容易に識別できることを示す。
論文参考訳（メタデータ） (2022-05-27T13:19:07Z)
Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning [54.99749970495241]
Alpaは大規模なディープラーニング(DL)モデルのモデル並列トレーニングを自動化する。 Alpaはデータ、演算子、パイプライン並列性を統一する実行計画を生成する。特殊なシステムとは異なり、Alpaは手動設計の計画なしで異質なアーキテクチャやモデルを持つモデルに一般化する。
論文参考訳（メタデータ） (2022-01-28T10:13:35Z)
Automap: Towards Ergonomic Automated Parallelism for ML Models [2.469997094590327]
本稿では,既存のコンパイラと既存ユーザをシームレスに統合する自動パーティショナのプロトタイプを提案する。我々のパーティショナは、データ並列性とパラメータ/アクティベーションシャーディングを含むSPMDスタイルの並列処理を可能にする。帰納的戦術とプラットフォーム非依存のパーティショニングIRでの検索を組み合わせることで、Automapはトランスフォーマー層に対するMegatronシャーディングのような専門的なパーティショニング戦略を回復することができる。
論文参考訳（メタデータ） (2021-12-06T12:09:38Z)
DistIR: An Intermediate Representation and Simulator for Efficient Neural Network Distribution [15.086401550425125]
DistIRは分散計算のための表現であり、効率的な解析のために調整されている。本研究では、DistIRとそのシミュレータが1000以上の構成にまたがる複雑な分散空間を高速にグリッドで探索する方法を示す。
論文参考訳（メタデータ） (2021-11-09T21:32:51Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)
Optimizing Streaming Parallelism on Heterogeneous Many-Core Architectures: A Machine Learning Based Approach [16.702537371391053]
本稿では、異種多コアアーキテクチャ上のタスクベース並列アプリケーションにおいて、ハードウェアリソース分割とタスク粒度に関する優れたソリューションを導出する自動手法を提案する。提案手法では,与えられたリソース分割とタスクの粒度設定に基づいて,対象アプリケーションの結果のパフォーマンスを推定するために,性能モデルを用いる。シングルストリームバージョンと比較すると,XeonPhiとGPUプラットフォームでそれぞれ1.6倍,1.1倍の高速化を実現している。
論文参考訳（メタデータ） (2020-03-05T21:18:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。