Fugu-MT 論文翻訳(概要): Mixed Sparsity Training: Achieving 4$\times$ FLOP Reduction for Transformer Pretraining

論文の概要: Mixed Sparsity Training: Achieving 4$\times$ FLOP Reduction for Transformer Pretraining

arxiv url: http://arxiv.org/abs/2408.11746v1
Date: Wed, 21 Aug 2024 16:13:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 16:18:16.544591
Title: Mixed Sparsity Training: Achieving 4$\times$ FLOP Reduction for Transformer Pretraining
Title（参考訳）: 混合スパシティトレーニング: 4$\times$ FLOP Reduction for Transformer Pretraining
Authors: Pihe Hu, Shaolong Li, Longbo Huang,
Abstract要約: 混合空間訓練(Mixed Sparsity Training、MST)は、性能を維持しながら、約75%の浮動小数点演算(FLOP)を削減できる効率的な事前訓練法である。 GPT-2の実験では、FLOPの4倍の4倍の値が、性能を損なうことなく得られることを示した。
参考スコア（独自算出の注目度）: 32.925150708409205
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) have made significant strides in complex tasks, yet their widespread adoption is impeded by substantial computational demands. With hundreds of billion parameters, transformer-based LLMs necessitate months of pretraining across a high-end GPU cluster. However, this paper reveals a compelling finding: transformers exhibit considerable redundancy in pretraining computations, which motivates our proposed solution, Mixed Sparsity Training (MST), an efficient pretraining method that can reduce about $75\%$ of Floating Point Operations (FLOPs) while maintaining performance. MST integrates dynamic sparse training (DST) with Sparsity Variation (SV) and Hybrid Sparse Attention (HSA) during pretraining, involving three distinct phases: warm-up, ultra-sparsification, and restoration. The warm-up phase transforms the dense model into a sparse one, and the restoration phase reinstates connections. Throughout these phases, the model is trained with a dynamically evolving sparse topology and an HSA mechanism to maintain performance and minimize training FLOPs concurrently. Our experiment on GPT-2 showcases a FLOP reduction of $4\times$ without compromising performance.
Abstract（参考訳）: 大規模言語モデル(LLM)は複雑なタスクにおいて大きな進歩を遂げてきたが、その普及は相当な計算要求によって妨げられている。数十億のパラメータを持つトランスフォーマーベースのLLMは、ハイエンドGPUクラスタ上での事前トレーニングを何ヶ月も必要とします。しかし,本論文では,提案手法の動機となる事前学習におけるトランスフォーマーの冗長性について述べる。提案手法であるMixed Sparsity Training (MST)は,Floating Point Operations (FLOPs) を約7,5 %削減し,性能を向上する。 MSTは、ダイナミックスパーストレーニング(DST)と、スペーサ性変化(SV)とハイブリッドスパース注意(HSA)を統合し、ウォームアップ、超スパース化、回復の3段階を含む。ウォームアップ相は密度のモデルをスパース相に変換し、回復相は接続を回復させる。これらのフェーズを通じて、モデルは動的に進化するスパーストポロジと、性能を維持し、FLOPを同時にトレーニングするHSAメカニズムで訓練される。 GPT-2 実験では,FLOP の 4 倍の FLOP が,性能を損なうことなく低下することを示した。

関連論文リスト

Continual Pre-training of MoEs: How robust is your router? [25.438359533860954]
MoEは、トレーニング時のサンプル効率の改善と、より強力なパフォーマンスの恩恵を受ける。多くのクローズドソースおよびオープンソースフロンティア言語モデルは、MoEアーキテクチャを採用している。 CPTにおいて, MoE LLMはサンプル効率(FLOP整合密度モデルと比較して)を維持し, 完全に再学習した MoE の性能を, コストのごく一部で一致させることができることを示した。
論文参考訳（メタデータ） (2025-03-06T22:55:01Z)
Exploring the Benefit of Activation Sparsity in Pre-training [117.25661020250658]
プレトレーニング中に活性化特性がどう変化するかを検討した。本稿では,Sparse-Dense Learning (SSD)を提案する。 SSDは同じモデルサイズで同等のパフォーマンスを実現し、事前トレーニングコストを削減する。
論文参考訳（メタデータ） (2024-10-04T13:53:33Z)
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。 ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文参考訳（メタデータ） (2024-07-30T06:33:44Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection [49.43407207482008]
SpacTorは、スパン汚職(SC)とトークン置換検出(RTD)を組み合わせたハイブリッド目標からなる新しいトレーニング手順である。各種NLPタスクにおけるエンコーダ・デコーダアーキテクチャ(T5)による実験では、SpacTor-T5は標準のSCプリトレーニングと同じダウンストリーム性能が得られる。
論文参考訳（メタデータ） (2024-01-24T00:36:13Z)
Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文参考訳（メタデータ） (2024-01-23T14:53:20Z)
Preparing Lessons for Progressive Training on Language Models [75.88952808979087]
人工知能におけるトランスフォーマーの急速な進歩は、資源消費の増加と温室効果ガス排出のコストを犠牲にしている。我々は,低層学習におけるtextbflayer functitextbfonality による extextbfpanding textbfoperation の授業をプレptextbfars で行うApolloを提案する。実験では、アポロは最先端の加速比を達成し、事前訓練されたモデルを用いた手法にさえ対抗できることを示した。
論文参考訳（メタデータ） (2024-01-17T13:04:14Z)
PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs [22.557682089926004]
パラメータの小さなサブセットを更新すれば、刈り込み後の回復や性能向上に十分であることを示す。標準のLoRAとは異なり、スパシティを損なうことなくアダプタを再びマージできる2つの新しいLoRA変種を導入する。
論文参考訳（メタデータ） (2023-12-23T11:45:22Z)
Efficient GPT Model Pre-training using Tensor Train Matrix Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。 GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。 GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文参考訳（メタデータ） (2023-06-05T08:38:25Z)
Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。 SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文参考訳（メタデータ） (2023-03-02T22:12:51Z)
COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency with Slenderized Multi-exit Language Models [16.586312156966635]
トランスフォーマーベースの事前訓練言語モデル(PLM)は、高い能力にもかかわらず過度のオーバーヘッドに悩まされている。既存の静的圧縮モデルは、入力インスタンス間の様々な複雑さに気づいていない。静的モデル圧縮と動的推論アクセラレーションを統合したPLMの協調最適化を提案する。
論文参考訳（メタデータ） (2022-10-27T15:06:40Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
A Fast and Efficient Conditional Learning for Tunable Trade-Off between Accuracy and Robustness [11.35810118757863]
クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。既存のFiLMベースの条件付けの代わりに、付加層を必要としない独特な重み付き学習を行うFLOATアルゴリズムを提案する。特に、重みテンソルにスケールドノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。
論文参考訳（メタデータ） (2022-03-28T19:25:36Z)
Accelerating Training of Transformer-Based Language Models with Progressive Layer Dropping [24.547833264405355]
提案手法は, サンプルあたり平均24%の時間短縮を実現し, プレトレーニングをベースラインの2.5倍の速度で行うことができる。トレーニング済みのモデルでは,より高速ながら,強力な知識伝達能力を備え,ベースラインよりも高いGLUEスコアを達成できる。
論文参考訳（メタデータ） (2020-10-26T06:50:07Z)
Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文参考訳（メタデータ） (2020-04-17T13:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。