論文の概要: Tensor-Parallelism with Partially Synchronized Activations
- arxiv url: http://arxiv.org/abs/2506.19645v1
- Date: Tue, 24 Jun 2025 14:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.664753
- Title: Tensor-Parallelism with Partially Synchronized Activations
- Title(参考訳): 部分同期活性化を伴うテンソル・パラレル主義
- Authors: Itay Lamprecht, Asaf Karnieli, Yair Hanani, Niv Giladi, Daniel Soudry,
- Abstract要約: テンソル並列性を持つ大規模言語モデル(LLM)の訓練と推論には,アクティベーションの同期化に相当なコミュニケーションが必要である。
これをCAAT-Net(Communication-Aware Architecture forparallelism)と呼ぶ。
我々は1Bおよび7BパラメータCAAT-Netモデルをトレーニングし、テンソルパラレル通信の50%削減と事前学習精度の大幅な低下を伴わない。
- 参考スコア(独自算出の注目度): 17.91571847019665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training and inference of Large Language Models (LLMs) with tensor-parallelism requires substantial communication to synchronize activations. Our findings suggest that with a few minor adjustments to current practices, LLMs can be trained without fully synchronizing activations, reducing bandwidth demands. We name this "Communication-Aware Architecture for Tensor-parallelism" (CAAT-Net). We train 1B and 7B parameter CAAT-Net models, with a 50% reduction in tensor-parallel communication and no significant drop in pretraining accuracy. Furthermore, we demonstrate how CAAT-Net accelerates both training and inference workloads.
- Abstract(参考訳): テンソル並列性を持つ大規模言語モデル(LLM)の訓練と推論には,アクティベーションの同期化に相当なコミュニケーションが必要である。
以上の結果から,LCMは動作の同期化や帯域幅の要求の低減を伴わずに訓練可能であることが示唆された。
これをCAAT-Net(Communication-Aware Architecture for Tensor-parallelism)と呼ぶ。
我々は1Bおよび7BパラメータCAAT-Netモデルをトレーニングし、テンソルパラレル通信の50%削減と事前学習精度の大幅な低下を伴わない。
さらに、CAAT-Netがトレーニングと推論の両方のワークロードを加速する様子を実演する。
関連論文リスト
- NoLoCo: No-all-reduce Low Communication Training Method for Large Models [0.310688583550805]
大規模言語モデルのトレーニングは、一般的に数万のアクセラレータを含むクラスタ上で最適化手法によって行われる。
NoLoCoは、モデルウェイトをランダムに選択された他のウェイトと部分的に平均化することで、Nesterov運動量の新しい変種を介してモデルウェイトを暗黙的に同期させる。
提案手法は, 完全シャードデータ並列訓練や, 広範に使用されている低通信訓練であるDiLoCoよりも通信オーバーヘッドをはるかに少なくする。
論文 参考訳(メタデータ) (2025-06-12T17:23:23Z) - TAH-QUANT: Effective Activation Quantization in Pipeline Parallelism over Slow Network [21.231881562816373]
本稿では,パイプライン並列性に特化した新しいアクティベーション量子化フレームワークTAH-Quant(Tile-wise Adaptive Hadamard Quantization)を紹介する。
提案手法は,精密制御のための細粒度タイルワイド量子化,最適ビット使用のためのエントロピー誘導トークンレベル適応ビット割り当て,およびピボット要素スワップを用いたアダマール変換を統合し,量子化出力を効果的に抑制する。
論文 参考訳(メタデータ) (2025-06-02T06:13:41Z) - Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。
本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:19:22Z) - One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments [43.107261545706415]
大規模言語モデル(LLM)は急速に進歩しているが、かなりのメモリ需要に直面している。
現在の方法では、量子化損失によるパフォーマンス劣化を軽減するために、通常、長いトレーニングが必要です。
我々は、一度限りのフレームワークを大規模言語モデルに拡張する最初の試みを行っている。
論文 参考訳(メタデータ) (2024-05-30T16:05:15Z) - Efficient Parallel Reinforcement Learning Framework using the Reactor
Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。
Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。
我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文 参考訳(メタデータ) (2023-12-07T21:19:57Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。