論文の概要: Progressive Gradient Flow for Robust N:M Sparsity Training in
Transformers
- arxiv url: http://arxiv.org/abs/2402.04744v1
- Date: Wed, 7 Feb 2024 10:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 15:51:29.405556
- Title: Progressive Gradient Flow for Robust N:M Sparsity Training in
Transformers
- Title(参考訳): 変圧器のロバストN:Mスポーサリティトレーニングのための進行勾配流
- Authors: Abhimanyu Rajeshkumar Bambhaniya, Amir Yazdanbakhsh, Suvinay
Subramanian, Sheng-Chun Kao, Shivani Agrawal, Utku Evci, Tushar Krishna
- Abstract要約: N:Mの構造的疎水性は、比較的穏やかなオーバーヘッドと効率の向上の結果、大きな関心を集めている。
N:Mの構造的疎性のためのトレーニングレシピの開発は、主に低疎性領域に焦点を当てている。
しかし、これらの手法を用いて訓練されたモデルの性能は、高分離領域に直面すると低下する傾向にある。
- 参考スコア(独自算出の注目度): 15.27677493050638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: N:M Structured sparsity has garnered significant interest as a result of
relatively modest overhead and improved efficiency. Additionally, this form of
sparsity holds considerable appeal for reducing the memory footprint owing to
their modest representation overhead. There have been efforts to develop
training recipes for N:M structured sparsity, they primarily focus on
low-sparsity regions ($\sim$50\%). Nonetheless, performance of models trained
using these approaches tends to decline when confronted with high-sparsity
regions ($>$80\%). In this work, we study the effectiveness of existing sparse
training recipes at \textit{high-sparsity regions} and argue that these methods
fail to sustain the model quality on par with low-sparsity regions. We
demonstrate that the significant factor contributing to this disparity is the
presence of elevated levels of induced noise in the gradient magnitudes. To
mitigate this undesirable effect, we employ decay mechanisms to progressively
restrict the flow of gradients towards pruned elements. Our approach improves
the model quality by up to 2$\%$ and 5$\%$ in vision and language models at
high sparsity regime, respectively. We also evaluate the trade-off between
model accuracy and training compute cost in terms of FLOPs. At iso-training
FLOPs, our method yields better performance compared to conventional sparse
training recipes, exhibiting an accuracy improvement of up to 2$\%$. The source
code is available at
https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.
- Abstract(参考訳): N:Mの構造的空間性は、比較的穏やかなオーバーヘッドと効率の向上の結果、大きな関心を集めている。
さらに、このスパルシリティの形式は、メモリフットプリントの少ない表現オーバーヘッドのため、かなり魅力的なものとなっている。
n:m構造化スパース性のためのトレーニングレシピの開発には努力が続けられており、主に低スパース性領域($\sim$50\%)に焦点を当てている。
それでも、これらのアプローチでトレーニングされたモデルのパフォーマンスは、高いスパース領域($80\%)に直面すると低下しがちである。
本研究では,既存のスパース・トレーニング・レシピの有効性を \textit{high-sparsity regions} で検討し,この手法が低スパース領域と同等のモデル品質を維持できないと主張する。
この差に寄与する重要な要因は、勾配等級における誘導雑音の高レベルの存在であることを示す。
この望ましくない効果を緩和するため、我々は崩壊機構を用いて段階的にプルーニング要素への勾配の流れを制限する。
提案手法は,高精細度環境下での視覚モデルと言語モデルにおいて,最大2$\%$と5$\%$$でモデル品質を向上させる。
また,モデル精度と学習計算コストのトレードオフをフラップの観点から評価した。
等速訓練FLOPでは,従来のスパーストレーニングレシピと比較して性能が向上し,最大2$\%の精度向上が得られた。
ソースコードはhttps://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsityで入手できる。
関連論文リスト
- PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。
我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。
PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-10T08:02:20Z) - Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models [29.863953001061635]
拡散モデル(DM)は高品質で多様な画像を生成する上で優れた性能を示した。
既存の作業は主にDM効率を高めるためのトレーニングプロセスを採用している。
本稿では,アテンション駆動型トレーニングフリー効率拡散モデル (AT-EDM) フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-08T17:56:47Z) - Preparing Lessons for Progressive Training on Language Models [75.88952808979087]
人工知能におけるトランスフォーマーの急速な進歩は、資源消費の増加と温室効果ガス排出のコストを犠牲にしている。
我々は,低層学習におけるtextbflayer functitextbfonality による extextbfpanding textbfoperation の授業をプレptextbfars で行うApolloを提案する。
実験では、アポロは最先端の加速比を達成し、事前訓練されたモデルを用いた手法にさえ対抗できることを示した。
論文 参考訳(メタデータ) (2024-01-17T13:04:14Z) - Bridging the Gap: Addressing Discrepancies in Diffusion Model Training
for Classifier-Free Guidance [1.6804613362826175]
拡散モデルは、生成モデルにおいて重要な進歩として現れている。
本稿では,従来の訓練方法と所望の条件付きサンプリング行動との相違点を明らかにすることを目的とする。
トレーニング目標とサンプリング行動との整合性を向上する改良された損失関数を導入する。
論文 参考訳(メタデータ) (2023-11-02T02:03:12Z) - Gradient-based Intra-attention Pruning on Pre-trained Language Models [21.444503777215637]
本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。
GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。
GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-15T06:52:31Z) - Training Recipe for N:M Structured Sparsity with Decaying Pruning Mask [8.02992650002693]
モデル精度と計算コストのトレードオフの観点から,N:M空間の様々なトレーニングレシピについて検討し,評価を行った。
我々は,2つの新しい崩壊に基づくプルーニング法,すなわち「プルーニングマスク崩壊」と「スパース構造崩壊」を提案する。
評価の結果,提案手法は非構造空間に匹敵する精度のSOTA(State-of-the-art)モデルを実現することがわかった。
論文 参考訳(メタデータ) (2022-09-15T21:30:55Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - Learning Expectation of Label Distribution for Facial Age and
Attractiveness Estimation [65.5880700862751]
本稿では,2つの最先端手法(Ranking-CNNとDLDL)の本質的な関係を解析し,ランキング法が実際にラベル分布を暗黙的に学習していることを示す。
軽量なネットワークアーキテクチャを提案し、顔属性の分布と回帰属性の値を共同で学習できる統一的なフレームワークを提案する。
提案手法は,36$times$パラメータが小さく,3$times$が顔の年齢/魅力度推定における高速な推論速度を持つ単一モデルを用いて,新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2020-07-03T15:46:53Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。