論文の概要: RTP: Rethinking Tensor Parallelism with Memory Deduplication
- arxiv url: http://arxiv.org/abs/2311.01635v1
- Date: Thu, 2 Nov 2023 23:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 15:34:45.201508
- Title: RTP: Rethinking Tensor Parallelism with Memory Deduplication
- Title(参考訳): rtp:メモリ重複によるテンソル並列性再考
- Authors: Cheng Luo, Tianle Zhong, Geoffrey Fox
- Abstract要約: Rotated Parallelism(RTP)は、分散トレーニング環境におけるメモリ重複に着目した革新的なアプローチである。
我々の経験的評価はRTPの効率を裏付けるものであり、分散システムトレーニング中のメモリ消費が極めて最適に近いことを示している。
- 参考スコア(独自算出の注目度): 3.036340414461332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the evolving landscape of neural network models, one prominent challenge
stand out: the significant memory overheads associated with training expansive
models. Addressing this challenge, this study delves deep into the Rotated
Tensor Parallelism (RTP). RTP is an innovative approach that strategically
focuses on memory deduplication in distributed training environments. It boasts
of unique features like a customized communication primitive and the Flyweight
Pattern initialization. Furthermore, RTP ensures a seamless overlap between
partition computation and partition weight communication, optimizing the
training process. Our empirical evaluations underscore RTP's efficiency,
revealing that its memory consumption during distributed system training is
remarkably close to the optimal - distributing the memory overhead of a single
machine equitably among multiple machines. The experimental results demonstrate
that RTP is capable of achieving comparable performance to Distributed Data
Parallel while providing support for significantly larger models with
near-linear scalability in terms of memory. Code of RTP is available at
https://github.com/wdlctc/rtp.
- Abstract(参考訳): ニューラルネットワークモデルの進化する状況において、注目すべき課題は、トレーニングの拡張モデルに関連する大きなメモリオーバーヘッドである。
この課題に対処するため、この研究はRTP(Rotated Tensor Parallelism)を深く掘り下げた。
RTPは、分散トレーニング環境におけるメモリ重複を戦略的に重視する革新的なアプローチである。
カスタマイズされたコミュニケーションプリミティブやflyweightパターンの初期化など、ユニークな機能を備えている。
さらに、RTPはパーティション計算とパーティションウェイト通信のシームレスな重複を保証し、トレーニングプロセスを最適化する。
実験結果から,rtpの効率性が評価され,分散システムトレーニング時のメモリ消費量は,単一マシンのメモリオーバヘッドを均等に複数のマシンに分散する最適値に極めて近いことが明らかとなった。
実験の結果、RTPは分散データ並列に匹敵する性能を達成できると同時に、メモリの面でほぼ直線的なスケーラビリティを持つ、はるかに大きなモデルをサポートすることが示された。
rtpのコードはhttps://github.com/wdlctc/rtpで入手できる。
関連論文リスト
- Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient
Approach [63.98380888730723]
本稿では, Convolutional Transformer Layer (ConvFormer) と ConvFormer-based Super-Resolution Network (CFSR) を紹介する。
CFSRは、計算コストの少ない長距離依存と広範囲の受容場を効率的にモデル化する。
これは、x2 SRタスクのUrban100データセットで0.39dB、パラメータが26%、FLOPが31%減少している。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Efficient Parametric Approximations of Neural Network Function Space
Distance [6.117371161379209]
モデルパラメータとトレーニングデータの重要な特性をコンパクトに要約して、データセット全体を保存または/または反復することなく後で使用できるようにすることが、しばしば有用である。
我々は,FSD(Function Space Distance)をトレーニングセット上で推定することを検討する。
本稿では、線形化活性化TRick (LAFTR) を提案し、ReLUニューラルネットワークに対するFSDの効率的な近似を導出する。
論文 参考訳(メタデータ) (2023-02-07T15:09:23Z) - SplitBrain: Hybrid Data and Model Parallel Deep Learning [11.63431725146897]
本稿では,ハイブリッドデータとモデル並列性をサポートする高性能分散ディープラーニングフレームワークSplitBrainを提案する。
具体的には、SplitBrainは、メモリ要求層をシャーディングしながら、計算集約的な畳み込み層を同時に配置する、層固有のパーティショニングを提供する。
その結果,データとモデル並列VGGをCIFAR-10上で最大67%のメモリ消費を節約しながら,ほぼ線形スピードアップを実現することができた。
論文 参考訳(メタデータ) (2021-12-31T06:25:38Z) - DistIR: An Intermediate Representation and Simulator for Efficient
Neural Network Distribution [15.086401550425125]
DistIRは分散計算のための表現であり、効率的な解析のために調整されている。
本研究では、DistIRとそのシミュレータが1000以上の構成にまたがる複雑な分散空間を高速にグリッドで探索する方法を示す。
論文 参考訳(メタデータ) (2021-11-09T21:32:51Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。