Fugu-MT 論文翻訳(概要): AMP: Automatically Finding Model Parallel Strategies with Heterogeneity Awareness

論文の概要: AMP: Automatically Finding Model Parallel Strategies with Heterogeneity Awareness

arxiv url: http://arxiv.org/abs/2210.07297v1
Date: Thu, 13 Oct 2022 18:55:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-17 17:08:59.749376
Title: AMP: Automatically Finding Model Parallel Strategies with Heterogeneity Awareness
Title（参考訳）: AMP:不均一性を考慮したモデル並列戦略の自動検出
Authors: Dacheng Li, Hongyi Wang, Eric Xing, Hao Zhang
Abstract要約: 我々は,モデル並列実行戦略を自動的に導出するAMPを開発する。パブリッククラウドから人気のモデルとクラスタのセットアップでAMPを評価します。 AMPは、最先端のモデル並列システムよりも1.54倍と1.77倍高いスループットの戦略を見つける。
参考スコア（独自算出の注目度）: 10.20441432750275
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling up model sizes can lead to fundamentally new capabilities in many machine learning (ML) tasks. However, training big models requires strong distributed system expertise to carefully design model-parallel execution strategies that suit the model architectures and cluster setups. In this paper, we develop AMP, a framework that automatically derives such strategies. AMP identifies a valid space of model parallelism strategies and efficiently searches the space for high-performed strategies, by leveraging a cost model designed to capture the heterogeneity of the model and cluster specifications. Unlike existing methods, AMP is specifically tailored to support complex models composed of uneven layers and cluster setups with more heterogeneous accelerators and bandwidth. We evaluate AMP on popular models and cluster setups from public clouds and show that AMP returns parallel strategies that match the expert-tuned strategies on typical cluster setups. On heterogeneous clusters or models with heterogeneous architectures, AMP finds strategies with 1.54x and 1.77x higher throughput than state-of-the-art model-parallel systems, respectively.
Abstract（参考訳）: モデルサイズのスケールアップは、多くの機械学習(ml)タスクの基本的な新機能につながる可能性がある。しかしながら,大規模モデルのトレーニングには,モデルアーキテクチャやクラスタ設定に適したモデル並列実行戦略を慎重に設計する上で,強力な分散システム専門知識が必要である。本稿では,このような戦略を自動的に導出するAMPを開発する。 AMPはモデルとクラスタの仕様の不均一性を捉えるために設計されたコストモデルを活用することで、モデル並列化戦略の有効な空間を特定し、高性能戦略のための空間を効率的に検索する。既存の方法とは異なり、AMPは不均一なレイヤと、より異質なアクセラレータと帯域幅を備えたクラスタセットアップからなる複雑なモデルをサポートするように特別に調整されている。我々は、一般的なモデルとパブリッククラウドからのクラスタ設定についてampを評価し、典型的なクラスタ設定のエキスパートチューニング戦略にマッチする並列戦略を返すことを示す。異種クラスタや異種アーキテクチャを持つモデルでは、AMPは最先端のモデル並列システムよりも1.54倍のスループットと1.77倍のスループットの戦略を求める。

関連論文リスト

Fine-Grained Model Merging via Modular Expert Recombination [33.253051407398836]
本稿では,MERGEを提案する。MERGEはコンポーネントワイドなモデルマージと,インプットアウェアでオンデマンドなモジュール再結合を推論時に実現する手法である。 MERGEは、クロスタスク性能とストレージ効率のバランスをとる双方向最適化問題として、コンポーネントワイズマージを定式化している。 MERGEは、強いベースラインを一貫して上回り、効果的に一般化することを示す。
論文参考訳（メタデータ） (2026-02-06T09:55:56Z)
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T08:53:02Z)
Model Assembly Learning with Heterogeneous Layer Weight Merging [57.8462476398611]
モデル統合のための新しいパラダイムであるモデルアセンブリ学習(MAL)を紹介する。 MALは、様々なモデルのパラメータをオープンエンドモデル動物園に統合し、ベースモデルの能力を高める。
論文参考訳（メタデータ） (2025-03-27T16:21:53Z)
Training-free Heterogeneous Model Merging [40.681362819808136]
異種モデル用に設計された革新的なモデルマージフレームワークを提案する。構造的に不均一なモデルのマージは、均質なマージに匹敵する性能レベルを達成することができることを示す。私たちのコードはhttps://github.com/zju-vipa/training_free_heterogeneous_model_mergingで公開されています。
論文参考訳（メタデータ） (2024-12-29T04:49:11Z)
Adaptive Learning of Design Strategies over Non-Hierarchical Multi-Fidelity Models via Policy Alignment [0.0]
多要素強化学習フレームワークは、精度と計算コストの異なる分析モデルを活用することにより、エンジニアリング設計の効率を高める。 ALPHAは、高忠実度モデルとともに、任意の非階層的で不均一な低忠実度モデルの集合を適応的に活用することにより、高忠実度ポリシーを効率的に学習する新しい多忠実度RLフレームワークである。 ALPHAの有効性は、高忠実度モデルと2つの低忠実度モデルを用いて、分析的テスト最適化とオクトコプター設計問題において実証される。
論文参考訳（メタデータ） (2024-11-16T16:54:33Z)
Automatically Learning Hybrid Digital Twins of Dynamical Systems [56.69628749813084]
Digital Twins (DT)は、現実世界のシステムの状態と時間力学をシミュレートする。 DTは、しばしばデータスカース設定で目に見えない条件に一般化するのに苦労します。本稿では,HDTwinsを自律的に提案し,評価し,最適化するための進化的アルゴリズム(textbfHDTwinGen$)を提案する。
論文参考訳（メタデータ） (2024-10-31T07:28:22Z)
Hierarchical Clustering for Conditional Diffusion in Image Generation [12.618079575423868]
本稿では,階層クラスタ上で拡散モデルを用いて,高品質なクラスタ固有世代を得る,深層生成モデルであるTreeDiffusionを紹介する。提案するパイプラインは,データの階層構造を学習するVAEベースのクラスタリングモデルと,クラスタ毎に現実的な画像を生成する条件拡散モデルである。
論文参考訳（メタデータ） (2024-10-22T11:35:36Z)
Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。我々の研究は、既存のLCMスケーリングテクニック、特に選択的マージと混合のバリエーションのベンチマークから始まります。我々の手法は、マージ可能なモデルのクラスタリングと最適なマージ戦略選択、モデルミックスによるクラスタの統合を含む。
論文参考訳（メタデータ） (2024-10-07T15:55:55Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training [42.514897110537596]
現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。このようなクラスタを設計してパフォーマンスと利用の両方を最大化します。本稿では,並列化戦略と鍵クラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを紹介する。
論文参考訳（メタデータ） (2022-11-30T00:32:37Z)
AdaptDHM: Adaptive Distribution Hierarchical Model for Multi-Domain CTR Prediction [4.299153274884263]
本稿では,適応分布階層モデル (Adaptive Distribution Hierarchical Model, AdaptDHM) という,エレガントで柔軟なマルチディストリビューション・モデリング手法を提案する。本モデルでは, 予測精度が向上し, トレーニング期間中の時間コストは, 他のモデルに比べて50%以上低下する。
論文参考訳（メタデータ） (2022-11-22T09:10:37Z)
On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文参考訳（メタデータ） (2022-11-10T03:56:48Z)
Decentralized Training of Foundation Models in Heterogeneous Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文参考訳（メタデータ） (2022-06-02T20:19:51Z)
DistIR: An Intermediate Representation and Simulator for Efficient Neural Network Distribution [15.086401550425125]
DistIRは分散計算のための表現であり、効率的な解析のために調整されている。本研究では、DistIRとそのシミュレータが1000以上の構成にまたがる複雑な分散空間を高速にグリッドで探索する方法を示す。
論文参考訳（メタデータ） (2021-11-09T21:32:51Z)
Unsupervised multi-modal Styled Content Generation [61.040392094140245]
UMMGANは、教師なし方式でマルチモーダル分布をモデル化するために設計された新しいアーキテクチャである。 UMMGANはモードとスタイルを効果的に切り離し、生成したコンテンツに対して独立した制御を行うことができることを示す。
論文参考訳（メタデータ） (2020-01-10T19:36:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。