論文の概要: EcoSpa: Efficient Transformer Training with Coupled Sparsity
- arxiv url: http://arxiv.org/abs/2511.11641v1
- Date: Sun, 09 Nov 2025 11:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.777119
- Title: EcoSpa: Efficient Transformer Training with Coupled Sparsity
- Title(参考訳): EcoSpa: 疎結合による効率的なトランスフォーマートレーニング
- Authors: Jinqi Xiao, Cheng Luo, Lingyi Huang, Cheng Yang, Yang Sui, Huy Phan, Xiao Zang, Yibiao Ying, Zhexiang Tang, Anima Anandkumar, Bo Yuan,
- Abstract要約: トランスフォーマーは現代のAIのバックボーンとなっているが、その高い計算要求は重要なシステム課題を引き起こしている。
EcoSpaは、結合した重み行列対を共同で評価し、スパース化する効率的な構造的スパース訓練法である。
- 参考スコア(独自算出の注目度): 79.5008521101473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have become the backbone of modern AI, yet their high computational demands pose critical system challenges. While sparse training offers efficiency gains, existing methods fail to preserve critical structural relationships between weight matrices that interact multiplicatively in attention and feed-forward layers. This oversight leads to performance degradation at high sparsity levels. We introduce EcoSpa, an efficient structured sparse training method that jointly evaluates and sparsifies coupled weight matrix pairs, preserving their interaction patterns through aligned row/column removal. EcoSpa introduces a new granularity for calibrating structural component importance and performs coupled estimation and sparsification across both pre-training and fine-tuning scenarios. Evaluations demonstrate substantial improvements: EcoSpa enables efficient training of LLaMA-1B with 50\% memory reduction and 21\% faster training, achieves $2.2\times$ model compression on GPT-2-Medium with $2.4$ lower perplexity, and delivers $1.6\times$ inference speedup. The approach uses standard PyTorch operations, requiring no custom hardware or kernels, making efficient transformer training accessible on commodity hardware.
- Abstract(参考訳): トランスフォーマーは現代のAIのバックボーンとなっているが、その高い計算要求は重要なシステム課題を引き起こしている。
スパーストレーニングは効率向上をもたらすが、既存の手法では、注意を払って多元的に相互作用する重み行列とフィードフォワード層の間の重要な構造的関係を保たない。
この監視は、高い疎度でパフォーマンスを低下させる。
エコスパ(EcoSpa)は、結合重み行列対を共同で評価・分散し、列列/列の除去によって相互作用パターンを保存する効率的な構造的スパース訓練法である。
EcoSpaは、構造的コンポーネントの重要度を調整するための新しい粒度を導入し、事前トレーニングと微調整の両方のシナリオで、同時見積とスパーシフィケーションを実行する。
EcoSpaは、50\%のメモリ削減と21\%の高速トレーニングを備えたLLaMA-1Bの効率的なトレーニングを可能にし、GPT-2-Mediumでのモデル圧縮を2.2\times$、2.4$低いパープレキシティで達成し、1.6\times$推論スピードアップを提供する。
このアプローチでは標準的なPyTorch操作を使用し、カスタムハードウェアやカーネルを必要とせず、効率的なトランスフォーマートレーニングをコモディティハードウェア上で実行可能にする。
関連論文リスト
- Decorrelation Speeds Up Vision Transformers [0.6924349411126935]
Masked Autoencoder (MAE) pre-training of vision transformer (ViTs) は低ラベル方式では高い性能を示すが、かなりの計算コストが伴う。
我々は,各層における入力相関を反復的に低減し,収束を加速する最適化手法であるMAEプレトレーニングにDBP(Decorrelated Backpropagation)を統合することで,この問題に対処する。
ADE20KファインチューニングによるImageNet-1K事前トレーニングでは、DBP-MAEはウォールタイム時間を21.1%減らし、二酸化炭素排出量を21.4%減らし、セグメンテーションmIoUを1.1.1改善する。
論文 参考訳(メタデータ) (2025-10-16T13:13:12Z) - Mixed Sparsity Training: Achieving 4$\times$ FLOP Reduction for Transformer Pretraining [32.925150708409205]
混合空間訓練(Mixed Sparsity Training、MST)は、性能を維持しながら、約75%の浮動小数点演算(FLOP)を削減できる効率的な事前訓練法である。
GPT-2の実験では、FLOPの4倍の4倍の値が、性能を損なうことなく得られることを示した。
論文 参考訳(メタデータ) (2024-08-21T16:13:16Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。