論文の概要: Compression-Induced Communication-Efficient Large Model Training and Inferencing
- arxiv url: http://arxiv.org/abs/2508.00960v1
- Date: Fri, 01 Aug 2025 12:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.646614
- Title: Compression-Induced Communication-Efficient Large Model Training and Inferencing
- Title(参考訳): 圧縮誘起通信による大規模モデル学習と推論
- Authors: Sudip K. Seal, Maksudul Alam, Jorge Ramirez, Sajal Dash, Hao Lu,
- Abstract要約: トレーニングと大規模なニューラルネットワークモデルによる推論のエネルギー効率は重要な課題である。
本稿では,エネルギー消費を最小化するために,ファントム並列方式(ファントム並列方式)を提案する。
実験により,提案したファントム並列手法を用いて,FFNの訓練用エネルギーを50%削減できることが示されている。
- 参考スコア(独自算出の注目度): 3.581934227767651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Energy efficiency of training and inferencing with large neural network models is a critical challenge facing the future of sustainable large-scale machine learning workloads. This paper introduces an alternative strategy, called phantom parallelism, to minimize the net energy consumption of traditional tensor (model) parallelism, the most energy-inefficient component of large neural network training. The approach is presented in the context of feed-forward network architectures as a preliminary, but comprehensive, proof-of-principle study of the proposed methodology. We derive new forward and backward propagation operators for phantom parallelism, implement them as custom autograd operations within an end-to-end phantom parallel training pipeline and compare its parallel performance and energy-efficiency against those of conventional tensor parallel training pipelines. Formal analyses that predict lower bandwidth and FLOP counts are presented with supporting empirical results on up to 256 GPUs that corroborate these gains. Experiments are shown to deliver ~50% reduction in the energy consumed to train FFNs using the proposed phantom parallel approach when compared with conventional tensor parallel methods. Additionally, the proposed approach is shown to train smaller phantom models to the same model loss on smaller GPU counts as larger tensor parallel models on larger GPU counts offering the possibility for even greater energy savings.
- Abstract(参考訳): トレーニングと大規模なニューラルネットワークモデルによる推論のエネルギー効率は、持続可能な大規模機械学習ワークロードに直面する重要な課題である。
本稿では,大規模なニューラルネットワークトレーニングにおいて最もエネルギー非効率なコンポーネントである従来のテンソル並列性(モデル)のエネルギー消費を最小限に抑えるために,ファントム並列性(phantom parallelism)と呼ばれる代替戦略を提案する。
本手法は,提案手法の予備的かつ包括的かつ実証的研究として,フィードフォワードネットワークアーキテクチャの文脈で提案される。
我々は、ファントム並列化のための新しい前方・後方伝搬演算子を導出し、これをエンドツーエンドのファントム並列訓練パイプライン内でカスタムオートグレード演算として実装し、その並列性能とエネルギー効率を従来のテンソル並列訓練パイプラインと比較する。
低帯域幅とFLOP数を予測する形式解析は、これらのゲインを裏付ける最大256のGPUに対して、経験的な結果をサポートする。
従来のテンソル並列法と比較して, ファントム並列法を用いてFFNを訓練する際のエネルギーを約50%削減する実験を行った。
さらに、提案手法では、より小さなファントムモデルに対して、より小さなGPU数で同じモデル損失を、より大きなGPU数でより大きなテンソル並列モデルとしてトレーニングする。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Forecasting the steam mass flow in a powerplant using the parallel
hybrid network [0.0]
本研究では,パラメタライズド量子回路と従来のフィードフォワードニューラルネットワークを組み合わせた並列ハイブリッドニューラルネットワークアーキテクチャを提案する。
その結果、並列ハイブリッドモデルは、スタンドアロンの古典的および量子的モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T17:59:25Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Jet: Fast quantum circuit simulations with parallel task-based
tensor-network contraction [0.8431877864777442]
本稿では,タスクベースの並列処理を用いて量子回路の高速化を実現する,新しいオープンソースソフトウェアライブラリJetを紹介する。
これらのスピードアップは, テンソルネットワークシミュレーションをタスクベースフレームワークにマッピングすることで導入された並列性の向上と, テンソルネットワークタスク間の共有作業の再利用という新たな手法から生じる。
論文 参考訳(メタデータ) (2021-07-20T22:46:02Z) - Tensor networks for unsupervised machine learning [9.897828174118974]
本稿では,量子多体物理学の行列状態と機械学習の自己回帰モデルを組み合わせたテンソルネットワークモデルであるAutoregressive Matrix Product States(AMPS)を提案する。
提案手法は,既存のテンソルネットワークモデルや制限されたボルツマンマシンよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-24T12:51:00Z) - Training End-to-End Analog Neural Networks with Equilibrium Propagation [64.0476282000118]
本稿では,勾配降下による終端から終端までのアナログニューラルネットワークの学習法を提案する。
数学的には、アナログニューラルネットワークのクラス(非線形抵抗性ネットワークと呼ばれる)がエネルギーベースモデルであることが示される。
我々の研究は、オンチップ学習をサポートする、超高速でコンパクトで低消費電力のニューラルネットワークの新世代の開発を導くことができる。
論文 参考訳(メタデータ) (2020-06-02T23:38:35Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。