論文の概要: AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs
- arxiv url: http://arxiv.org/abs/2503.01890v1
- Date: Thu, 27 Feb 2025 14:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:30.659220
- Title: AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs
- Title(参考訳): AutoHete:LLMの自動的かつ効率的な不均質訓練システム
- Authors: Zihao Zeng, Chubo Liu, Xin He, Juan Hu, Yong Jiang, Fei Huang, Kenli Li, Wei Yang Bryan Lim,
- Abstract要約: トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
- 参考スコア(独自算出の注目度): 68.99086112477565
- License:
- Abstract: Transformer-based large language models (LLMs) have demonstrated exceptional capabilities in sequence modeling and text generation, with improvements scaling proportionally with model size. However, the limitations of GPU memory have restricted LLM training accessibility for many researchers. Existing heterogeneous training methods significantly expand the scale of trainable models but introduce substantial communication overheads and CPU workloads. In this work, we propose AutoHete, an automatic and efficient heterogeneous training system compatible with both single-GPU and multi-GPU environments. AutoHete dynamically adjusts activation checkpointing, parameter offloading, and optimizer offloading based on the specific hardware configuration and LLM training needs. Additionally, we design a priority-based scheduling mechanism that maximizes the overlap between operations across training iterations, enhancing throughput. Compared to state-of-the-art heterogeneous training systems, AutoHete delivers a 1.32x~1.91x throughput improvement across various model sizes and training configurations.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングとテキスト生成において例外的な機能を示し、モデルサイズに比例してスケーリングを改善する。
しかし、GPUメモリの限界は、多くの研究者にとってLLMトレーニングアクセシビリティを制限している。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本研究では,シングルGPU環境とマルチGPU環境の両方に適合する自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
AutoHeteは、アクティベーションチェックポイント、パラメータオフロード、特定のハードウェア設定とLLMトレーニングニーズに基づいてオプティマイザオフロードを動的に調整する。
さらに、トレーニングイテレーション間の操作の重複を最大化し、スループットを向上する優先度ベースのスケジューリング機構を設計する。
最先端の異種訓練システムと比較すると、AutoHeteは様々なモデルサイズとトレーニング構成で1.32x~1.91倍のスループット向上を実現している。
関連論文リスト
- HEART: Achieving Timely Multi-Model Training for Vehicle-Edge-Cloud-Integrated Hierarchical Federated Learning [30.75025062952915]
AI対応のIoT of Vehicles(IoV)の急速な成長は、効率的な機械学習(ML)ソリューションを求めている。
車両はしばしば複数のMLタスクを同時に実行する必要がある。
本稿では,グローバルトレーニング遅延の最小化を目的とした動的VEC-HFLにおけるマルチモデルトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-17T03:15:03Z) - Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - Optimizing Small Language Models for In-Vehicle Function-Calling [4.148443557388842]
本稿では,小型言語モデル(SLM)をエッジデバイスとして車両内の機能呼び出しエージェントとして展開するための総合的アプローチを提案する。
SLMを利用することで、車両制御機構を簡素化し、ユーザエクスペリエンスを向上させる。
論文 参考訳(メタデータ) (2025-01-04T17:32:56Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Multiple Physics Pretraining for Physical Surrogate Models [41.26924657687872]
物理モデリングのための自己認識型タスク・時間事前学習手法であるMultiple Physics Pretraining (MPP)を導入する。
MPPでは、特定の物理システム上で1つのモデルをトレーニングするのではなく、バックボーンモデルをトレーニングし、複数の異種物理システムのダイナミクスを予測する。
1つのMPP事前学習変換器は、事前学習タスクと下流タスクの両方において、タスク固有のベースラインを一致または向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-04T17:29:19Z) - Improving Automatic Parallel Training via Balanced Memory Workload
Optimization [36.87527680184956]
トランスフォーマーモデルは、様々なアプリケーションドメインで最先端のパフォーマンスを達成するための主要なアプローチとして現れています。
本稿では,複数の並列性を持つ次元を統合し,最も効率的なハイブリッド並列性戦略を自動的に識別する新しいシステムフレームワークであるGalvatron-BMWを提案する。
異なるTransformerモデルを用いた評価では,Galvatron-BMWがGPUメモリ制約の異なる分散トレーニングを自動化できることが示されている。
論文 参考訳(メタデータ) (2023-07-05T05:28:38Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。