論文の概要: EcoSpa: Efficient Transformer Training with Coupled Sparsity
- arxiv url: http://arxiv.org/abs/2511.11641v1
- Date: Sun, 09 Nov 2025 11:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.777119
- Title: EcoSpa: Efficient Transformer Training with Coupled Sparsity
- Title(参考訳): EcoSpa: 疎結合による効率的なトランスフォーマートレーニング
- Authors: Jinqi Xiao, Cheng Luo, Lingyi Huang, Cheng Yang, Yang Sui, Huy Phan, Xiao Zang, Yibiao Ying, Zhexiang Tang, Anima Anandkumar, Bo Yuan,
- Abstract要約: トランスフォーマーは現代のAIのバックボーンとなっているが、その高い計算要求は重要なシステム課題を引き起こしている。
EcoSpaは、結合した重み行列対を共同で評価し、スパース化する効率的な構造的スパース訓練法である。
- 参考スコア(独自算出の注目度): 79.5008521101473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have become the backbone of modern AI, yet their high computational demands pose critical system challenges. While sparse training offers efficiency gains, existing methods fail to preserve critical structural relationships between weight matrices that interact multiplicatively in attention and feed-forward layers. This oversight leads to performance degradation at high sparsity levels. We introduce EcoSpa, an efficient structured sparse training method that jointly evaluates and sparsifies coupled weight matrix pairs, preserving their interaction patterns through aligned row/column removal. EcoSpa introduces a new granularity for calibrating structural component importance and performs coupled estimation and sparsification across both pre-training and fine-tuning scenarios. Evaluations demonstrate substantial improvements: EcoSpa enables efficient training of LLaMA-1B with 50\% memory reduction and 21\% faster training, achieves $2.2\times$ model compression on GPT-2-Medium with $2.4$ lower perplexity, and delivers $1.6\times$ inference speedup. The approach uses standard PyTorch operations, requiring no custom hardware or kernels, making efficient transformer training accessible on commodity hardware.
- Abstract(参考訳): トランスフォーマーは現代のAIのバックボーンとなっているが、その高い計算要求は重要なシステム課題を引き起こしている。
スパーストレーニングは効率向上をもたらすが、既存の手法では、注意を払って多元的に相互作用する重み行列とフィードフォワード層の間の重要な構造的関係を保たない。
この監視は、高い疎度でパフォーマンスを低下させる。
エコスパ(EcoSpa)は、結合重み行列対を共同で評価・分散し、列列/列の除去によって相互作用パターンを保存する効率的な構造的スパース訓練法である。
EcoSpaは、構造的コンポーネントの重要度を調整するための新しい粒度を導入し、事前トレーニングと微調整の両方のシナリオで、同時見積とスパーシフィケーションを実行する。
EcoSpaは、50\%のメモリ削減と21\%の高速トレーニングを備えたLLaMA-1Bの効率的なトレーニングを可能にし、GPT-2-Mediumでのモデル圧縮を2.2\times$、2.4$低いパープレキシティで達成し、1.6\times$推論スピードアップを提供する。
このアプローチでは標準的なPyTorch操作を使用し、カスタムハードウェアやカーネルを必要とせず、効率的なトランスフォーマートレーニングをコモディティハードウェア上で実行可能にする。
関連論文リスト
- Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers [91.02299679350834]
Diffusion Transformer (DiTs) は最先端の生成性能を提供するが、シークエンス長の2次トレーニングコストは大規模な事前訓練を不当に高価にする。
本稿では,高効率拡散変換器のためのスパース-デンス残差核融合法を提案する。
論文 参考訳(メタデータ) (2025-10-24T19:29:55Z) - Decorrelation Speeds Up Vision Transformers [0.6924349411126935]
Masked Autoencoder (MAE) pre-training of vision transformer (ViTs) は低ラベル方式では高い性能を示すが、かなりの計算コストが伴う。
我々は,各層における入力相関を反復的に低減し,収束を加速する最適化手法であるMAEプレトレーニングにDBP(Decorrelated Backpropagation)を統合することで,この問題に対処する。
ADE20KファインチューニングによるImageNet-1K事前トレーニングでは、DBP-MAEはウォールタイム時間を21.1%減らし、二酸化炭素排出量を21.4%減らし、セグメンテーションmIoUを1.1.1改善する。
論文 参考訳(メタデータ) (2025-10-16T13:13:12Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - BEExformer: A Fast Inferencing Binarized Transformer with Early Exits [2.7651063843287718]
BAT(Binarized Early Exit Transformer)とEE(Early Exit)を統合した最初の選択型学習ベーストランスであるBEExformerを紹介する。
BATは符号関数に微分可能な二階近似を用い、重みの符号と大きさの両方を捉える勾配を可能にする。
EEメカニズムは、ソフトルーティング損失推定を伴う中間変圧器ブロック間のエントロピーの分数還元に係わる。
これにより、FLOPを52.08%削減して推論を加速し、深層ネットワークに固有の「過剰な」問題を解くことで精度を2.89%向上させる。
論文 参考訳(メタデータ) (2024-12-06T17:58:14Z) - Mixed Sparsity Training: Achieving 4$\times$ FLOP Reduction for Transformer Pretraining [32.925150708409205]
混合空間訓練(Mixed Sparsity Training、MST)は、性能を維持しながら、約75%の浮動小数点演算(FLOP)を削減できる効率的な事前訓練法である。
GPT-2の実験では、FLOPの4倍の4倍の値が、性能を損なうことなく得られることを示した。
論文 参考訳(メタデータ) (2024-08-21T16:13:16Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。