Fugu-MT 論文翻訳(概要): Partitioned Neural Network Training via Synthetic Intermediate Labels

論文の概要: Partitioned Neural Network Training via Synthetic Intermediate Labels

arxiv url: http://arxiv.org/abs/2403.11204v1
Date: Sun, 17 Mar 2024 13:06:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 18:06:05.322503
Title: Partitioned Neural Network Training via Synthetic Intermediate Labels
Title（参考訳）: 合成中間ラベルを用いたニューラルネットワークの分割学習
Authors: Cevat Volkan Karadağ, Nezih Topaloğlu,
Abstract要約: GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The proliferation of extensive neural network architectures, particularly deep learning models, presents a challenge in terms of resource-intensive training. GPU memory constraints have become a notable bottleneck in training such sizable models. Existing strategies, including data parallelism, model parallelism, pipeline parallelism, and fully sharded data parallelism, offer partial solutions. Model parallelism, in particular, enables the distribution of the entire model across multiple GPUs, yet the ensuing data communication between these partitions slows down training. Additionally, the substantial memory overhead required to store auxiliary parameters on each GPU compounds computational demands. Instead of using the entire model for training, this study advocates partitioning the model across GPUs and generating synthetic intermediate labels to train individual segments. These labels, produced through a random process, mitigate memory overhead and computational load. This approach results in a more efficient training process that minimizes data communication while maintaining model accuracy. To validate this method, a 6-layer fully connected neural network is partitioned into two parts and its performance is assessed on the extended MNIST dataset. Experimental results indicate that the proposed approach achieves similar testing accuracies to conventional training methods, while significantly reducing memory and computational requirements. This work contributes to mitigating the resource-intensive nature of training large neural networks, paving the way for more efficient deep learning model development.
Abstract（参考訳）: 広範囲にわたるニューラルネットワークアーキテクチャ、特にディープラーニングモデルの普及は、リソース集約的なトレーニングという面での課題を示している。 GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。データ並列性、モデル並列性、パイプライン並列性、完全にシャーディングされたデータ並列性といった既存の戦略は、部分的なソリューションを提供する。モデル並列性は、特に、複数のGPUにまたがるモデル全体の分散を可能にするが、その後のパーティション間のデータ通信は、トレーニングを遅くする。さらに、各GPU化合物の計算要求に補助パラメータを格納するために必要なメモリオーバーヘッドもかなり大きい。モデル全体をトレーニングに使用する代わりに、GPU間でモデルを分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。これらのラベルはランダムなプロセスによって生成され、メモリオーバーヘッドと計算負荷を軽減する。このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。この方法を検証するために、6層完全連結ニューラルネットワークを2つの部分に分割し、その性能を拡張MNISTデータセットで評価する。実験結果から,提案手法は従来の学習手法と類似した試験精度を達成し,メモリと計算の要求を大幅に低減することが示された。この研究は、大規模ニューラルネットワークのトレーニングにおけるリソース集約的な性質の緩和に寄与し、より効率的なディープラーニングモデル開発への道を開いた。

関連論文リスト

Two-dimensional Sparse Parallelism for Large Scale Deep Learning Recommendation Model Training [9.47829333855806]
ディープラーニングレコメンデーションモデル(DLRM)では、スパース埋め込みテーブルはスパースカテゴリの特徴を管理する重要なコンポーネントである。本稿では,スケーラビリティの課題を克服する新しい2次元スパース並列化手法を提案する。提案手法は,モデル性能の同等性を保ちながら,トレーニング効率を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-08-05T19:12:18Z)
OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance [65.48009829137824]
視覚言語インストラクションチューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。私たちはこの問題に対処するために、データ、モデル、メモリの観点から計算負荷を再バランスさせました。提案手法の有効性と一般化性は,様々なモデルやデータセットでさらに実証された。
論文参考訳（メタデータ） (2024-07-30T12:02:58Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-28T12:02:27Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
SplitBrain: Hybrid Data and Model Parallel Deep Learning [11.63431725146897]
本稿では,ハイブリッドデータとモデル並列性をサポートする高性能分散ディープラーニングフレームワークSplitBrainを提案する。具体的には、SplitBrainは、メモリ要求層をシャーディングしながら、計算集約的な畳み込み層を同時に配置する、層固有のパーティショニングを提供する。その結果,データとモデル並列VGGをCIFAR-10上で最大67%のメモリ消費を節約しながら,ほぼ線形スピードアップを実現することができた。
論文参考訳（メタデータ） (2021-12-31T06:25:38Z)
Training Recommender Systems at Scale: Communication-Efficient Model and Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。 DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文参考訳（メタデータ） (2020-10-18T01:44:42Z)
Benchmarking network fabrics for data distributed training of deep neural networks [10.067102343753643]
深層モデルの訓練のための大規模な計算要求は、より高速な訓練のための新しい方法の開発を必要としている。このようなアプローチのひとつに、トレーニングデータを複数の計算ノードに分散する、データ並列アプローチがある。本稿では,物理ハードウェアの相互接続とネットワーク関連ソフトウェアプリミティブを用いてデータ分散ディープラーニングを実現する効果について検討する。
論文参考訳（メタデータ） (2020-08-18T17:38:30Z)
Deep Generative Models that Solve PDEs: Distributed Computing for Training Large Data-Free Models [25.33147292369218]
科学機械学習(SciML)の最近の進歩は、複雑な偏微分方程式(PDE)を解く新しいニューラルネットワークアーキテクチャを訓練する可能性を開く。本稿では、これらの大規模SciMLモデルをトレーニングする2つの課題を解決するために、データ並列分散ディープラーニングのためのソフトウェアフレームワークについて報告する。私たちのフレームワークは、(a)プロセス数に依存しない損失整合性、(b)同期バッチ正規化、(c)分散高階最適化方法など、いくつかのアウトオブボックス機能を提供します。
論文参考訳（メタデータ） (2020-07-24T22:42:35Z)
Understanding the Effects of Data Parallelism and Sparsity on Neural Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文参考訳（メタデータ） (2020-03-25T10:49:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。