論文の概要: Performance of Small Language Model Pretraining on FABRIC: An Empirical Study
- arxiv url: http://arxiv.org/abs/2602.02632v1
- Date: Mon, 02 Feb 2026 17:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.994558
- Title: Performance of Small Language Model Pretraining on FABRIC: An Empirical Study
- Title(参考訳): FABRICを前提とした小言語モデルの性能に関する実証的研究
- Authors: Praveen Rao,
- Abstract要約: 本研究では,学習者が無償で試用できる実験台上での小型LLMの事前学習技術の性能について検討する。
我々は,GPT-2ミディアムモデルと大規模モデルを使用し,オープンソースパッケージであるAlpaとRayを用いて事前訓練を行った。
我々は,GPUが地理的に分散された場合,演算子内並列性と演算子間並列性を一括最適化したAlpaの実行計画が,常に最善を尽くしたことを観察した。
- 参考スコア(独自算出の注目度): 2.2070336216767763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) require enormous computing power to pretrain on massive datasets. When limited datasets are available, smaller-sized LLMs are better choice to pretrain (on user-specified datasets) by following the scaling laws of LLMs. Using pretrained models, vector embeddings can be generated for raw data and stored using vector databases to support modern AI applications and semantic search. In this work, we investigate the performance of pretraining techniques for smaller-sized LLMs on an experimental testbed (with commodity GPUs) available to academic users at no charge. We consider data parallelism, intra-operator parallelism, and inter-operator/pipeline parallelism, and their combinations for pretraining. We set up different GPU clusters with homogeneous and heterogeneous GPU hardware. Furthermore, we investigate the impact of network latency on pretraining performance especially when GPUs are geographically distributed. We used GPT-2 medium and large models and pretrained them using open-source packages, namely, Alpa and Ray. We observed that Alpa's execution plans that collectively optimized intra-operator and inter-operator/pipeline parallelism consistently performed the best when GPUs were geographically distributed. This was especially true when the network latencies were in 10's of milliseconds. Based on the insights gained from the experiments, we propose a systematic approach for selecting the appropriate pretraining technique to achieve high training performance/lower execution time as well as to reduce the number of GPUs used.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大量のデータセットを事前訓練するために巨大な計算能力を必要とする。
限られたデータセットが利用可能であれば、LLMのスケーリング法則に従うことにより、(ユーザが指定したデータセット上で)事前トレーニングを行うのがより簡単になります。
事前トレーニングされたモデルを使用して、ベクター埋め込みを生データ用に生成し、ベクターデータベースを使用して保存することで、現代のAIアプリケーションとセマンティック検索をサポートする。
本研究では,実験台(コモディティGPU付き)上での小型LLMの事前学習技術の性能について,無償で実験を行った。
本稿では,データ並列性,演算子内並列性,演算子間並列性,および事前学習のための組み合わせについて考察する。
同質で異質なGPUハードウェアで、異なるGPUクラスタをセットアップしました。
さらに,GPUが地理的に分散している場合,ネットワーク遅延が事前学習性能に与える影響についても検討する。
我々は,GPT-2の中規模モデルと大規模モデルを用いて,オープンソースパッケージであるAlpaとRayを用いて事前訓練を行った。
我々は,GPUが地理的に分散された場合,演算子内並列性と演算子間並列性を一括最適化したAlpaの実行計画が,常に最善を尽くしたことを観察した。
これはネットワークのレイテンシが10ミリ秒であった場合に特に当てはまりました。
実験から得られた知見に基づいて,高いトレーニング性能/より低い実行時間を達成するために,適切な事前学習手法を選択するための体系的なアプローチを提案し,使用するGPUの数を削減した。
関連論文リスト
- Characterizing the Efficiency of Distributed Training: A Power, Performance, and Thermal Perspective [6.51239603014107]
大規模言語モデル(LLM)は、単一ノード分析の限界を超えて、トレーニングワークロードを推し進めている。
様々な実世界のワークロードとハードウェアプラットフォームにわたるLLMトレーニングの包括的特徴について述べる。
論文 参考訳(メタデータ) (2025-09-12T16:05:07Z) - Can Large Language Models Predict Parallel Code Performance? [1.5221392705893568]
本稿では,Large Language Models (LLM) がハードウェアに依存しないGPU性能予測に代替的なアプローチを提供するかどうかを考察する。
LLMはRooflineモデルについて強く理解しており、明示的なプロファイリングデータを備えた場合、100%の分類精度を達成する。
以上の結果から,より優れたデータセットと迅速な戦略により,LLMはHPCルーフライン解析および性能ポータビリティのための実用的なツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-06T21:41:20Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Scheduling Optimization Techniques for Neural Network Training [3.1617796705744547]
本稿では,ニューラルネットワークトレーニングに有効なスケジューリング手法であるアウト・オブ・オーダー(oo)バックプロップを提案する。
単一GPU、データ並列、パイプライン並列トレーニングにおけるGPU利用は、ooobackpropを適用することで、一般的に改善できることを示す。
論文 参考訳(メタデータ) (2021-10-03T05:45:06Z) - Multi-node Bert-pretraining: Cost-efficient Approach [6.5998084177955425]
大規模トランスフォーマーベースの言語モデルは、多くの自然言語処理(NLP)タスクの最先端結果にエキサイティングな飛躍をもたらした。
大規模な教師なしデータセットの出現により、単一のトレーニングエポック内のデータサンプルの増加により、トレーニング時間がさらに延長される。
学術的な環境では、適切な時間予算(12日)でBERTの事前訓練を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-08-01T05:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。