論文の概要: Galvatron: An Automatic Distributed System for Efficient Foundation Model Training
- arxiv url: http://arxiv.org/abs/2504.21411v1
- Date: Wed, 30 Apr 2025 08:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:53:19.240428
- Title: Galvatron: An Automatic Distributed System for Efficient Foundation Model Training
- Title(参考訳): Galvatron: 効率的なファンデーションモデルトレーニングのための自動分散システム
- Authors: Xinyi Liu, Yujie Wang, Shenhan Zhu, Fangcheng Fu, Qingshuo Liu, Guangming Lin, Bin Cui,
- Abstract要約: Galvatronは大規模ファンデーションモデルを効率的にトレーニングする分散システムである。
最適な並列戦略を選択する複雑さを克服し、最も効率的なハイブリッド戦略を自動的に識別する。
- 参考スコア(独自算出の注目度): 32.29213329004785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Galvatron is a distributed system for efficiently training large-scale Foundation Models. It overcomes the complexities of selecting optimal parallelism strategies by automatically identifying the most efficient hybrid strategy, incorporating data, tensor, pipeline, sharded data, and sequence parallelism, along with recomputation. The system's architecture includes a profiler for hardware and model analysis, a search engine for strategy optimization using decision trees and dynamic programming, and a runtime for executing these strategies efficiently. Benchmarking on various clusters demonstrates Galvatron's superior throughput compared to existing frameworks. This open-source system offers user-friendly interfaces and comprehensive documentation, making complex distributed training accessible and efficient. The source code of Galvatron is available at https://github.com/PKU-DAIR/Hetu-Galvatron.
- Abstract(参考訳): Galvatronは大規模ファンデーションモデルを効率的にトレーニングする分散システムである。
これは、データ、テンソル、パイプライン、シャードデータ、シーケンス並列性と再計算を組み込んだ、最も効率的なハイブリッド戦略を自動的に識別することで、最適な並列性戦略を選択する複雑さを克服する。
システムアーキテクチャには、ハードウェアとモデル分析のためのプロファイラ、決定木と動的プログラミングを使った戦略最適化のための検索エンジン、これらの戦略を効率的に実行するためのランタイムが含まれる。
さまざまなクラスタ上でのベンチマークは、Galvatronの既存のフレームワークよりも優れたスループットを示している。
このオープンソースシステムは、ユーザフレンドリなインターフェースと包括的なドキュメントを提供し、複雑な分散トレーニングをアクセスし、効率的にする。
Galvatronのソースコードはhttps://github.com/PKU-DAIR/Hetu-Galvatronで公開されている。
関連論文リスト
- Heterogeneous Swarms: Jointly Optimizing Model Roles and Weights for Multi-LLM Systems [102.36545569092777]
モデルの役割と重みを協調的に最適化し,マルチLLMシステムを設計するアルゴリズムであるヘテロジニアス・スウォームを提案する。
実験により、異種群は12タスクの平均18.5%で15のロールベースおよび/またはウェイトベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-06T21:27:11Z) - Integrated Hardware Architecture and Device Placement Search [7.620610652090732]
ディープラーニングトレーニングの分散実行には、ハードウェアアクセラレータアーキテクチャとデバイス配置戦略との動的相互作用が含まれる。
これは、最適なアーキテクチャとデバイス配置戦略を決定するための協調最適化を探求する最初の試みである。
提案手法は,最先端のTPUv4とSpotlightアクセラレーター検索フレームワークと比較して,大規模言語モデルにおいて高いスループットを実現する。
論文 参考訳(メタデータ) (2024-07-18T04:02:35Z) - Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - Improving Automatic Parallel Training via Balanced Memory Workload
Optimization [36.87527680184956]
トランスフォーマーモデルは、様々なアプリケーションドメインで最先端のパフォーマンスを達成するための主要なアプローチとして現れています。
本稿では,複数の並列性を持つ次元を統合し,最も効率的なハイブリッド並列性戦略を自動的に識別する新しいシステムフレームワークであるGalvatron-BMWを提案する。
異なるTransformerモデルを用いた評価では,Galvatron-BMWがGPUメモリ制約の異なる分散トレーニングを自動化できることが示されている。
論文 参考訳(メタデータ) (2023-07-05T05:28:38Z) - Vertical Federated Learning over Cloud-RAN: Convergence Analysis and
System Optimization [82.12796238714589]
高速かつ正確なモデルアグリゲーションを実現するために,クラウド無線アクセスネットワーク(Cloud-RAN)ベースの垂直FLシステムを提案する。
アップリンクとダウンリンクの両方の伝送を考慮した垂直FLアルゴリズムの収束挙動を特徴付ける。
我々は,連続凸近似と代替凸探索に基づくシステム最適化アルゴリズムを開発した,連系トランシーバとフロントホール量子化設計によるシステム最適化フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-04T09:26:03Z) - Auto-Parallelizing Large Models with Rhino: A Systematic Approach on
Production AI Platform [15.606647290942563]
Rhinoは、実運用環境向けのAIプラットフォーム上で自動並列化を備えたテンソルプログラムを高速化するシステムである。
単一のデバイス用に書かれたテンソルプログラムを,ユーザ設定なしで数千台のデバイスにスケールアップ可能な,同等の分散プログラムに変換する。
論文 参考訳(メタデータ) (2023-02-16T08:19:56Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training [42.514897110537596]
現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計してパフォーマンスと利用の両方を最大化します。
本稿では,並列化戦略と鍵クラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを紹介する。
論文 参考訳(メタデータ) (2022-11-30T00:32:37Z) - Galvatron: Efficient Transformer Training over Multiple GPUs Using
Automatic Parallelism [25.928940638269534]
我々は、最も効率的なハイブリッド並列化戦略を自動的に見つけるフレームワークであるGalvatronを提案する。
Galvatronは常に、並列性に制限のある以前の作業と比べて、優れたシステムスループットを実現している。
論文 参考訳(メタデータ) (2022-11-25T03:45:31Z) - Tevatron: An Efficient and Flexible Toolkit for Dense Retrieval [60.457378374671656]
Tevatronは、効率、柔軟性、コードの単純さに最適化された高密度な検索ツールキットである。
Tevatronのフレキシブルな設計は、データセット、モデルアーキテクチャ、アクセラレータプラットフォームをまたいで簡単に一般化できることを示す。
論文 参考訳(メタデータ) (2022-03-11T05:47:45Z) - DistIR: An Intermediate Representation and Simulator for Efficient
Neural Network Distribution [15.086401550425125]
DistIRは分散計算のための表現であり、効率的な解析のために調整されている。
本研究では、DistIRとそのシミュレータが1000以上の構成にまたがる複雑な分散空間を高速にグリッドで探索する方法を示す。
論文 参考訳(メタデータ) (2021-11-09T21:32:51Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。