論文の概要: Gradient-based Intra-attention Pruning on Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2212.07634v2
- Date: Thu, 18 May 2023 14:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 20:21:10.734728
- Title: Gradient-based Intra-attention Pruning on Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルに基づくグラディエント・ベース・イントラアテンション・プルーニング
- Authors: Ziqing Yang, Yiming Cui, Xin Yao, Shijin Wang
- Abstract要約: 本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。
GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。
GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
- 参考スコア(独自算出の注目度): 21.444503777215637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models achieve superior performance but are
computationally expensive. Techniques such as pruning and knowledge
distillation have been developed to reduce their sizes and latencies. In this
work, we propose a structured pruning method GRAIN (Gradient-based
Intra-attention pruning), which performs task-specific pruning with knowledge
distillation and yields highly effective models. Different from common
approaches that prune each attention head as a whole, GRAIN inspects and prunes
intra-attention structures, which greatly expands the structure search space
and enables more flexible models. We also propose a gradient separation
strategy that reduces the interference of distillation on pruning for a better
combination of the two approaches. Experiments on GLUE, SQuAD, and CoNLL 2003
show that GRAIN notably outperforms other methods, especially in the high
sparsity regime, and achieves $6\sim7\times$ speedups while maintaining
$93\%\sim99\%$ performance. Under extreme compression where only $3\%$
transformer weights remain, the pruned model is still competitive compared to
larger models.
- Abstract(参考訳): 事前訓練された言語モデルは優れた性能を得るが、計算コストが高い。
プルーニングや知識蒸留といった技術は、その大きさや潜伏時間を減らすために開発されてきた。
本研究では,知識蒸留によるタスク特異的な刈り取りを行い,高効率なモデルを生成する構造的刈り取り法(gradient-based intra-attention pruning)を提案する。
それぞれの注意を損なう一般的なアプローチと異なり、粒度検査とプルーン内部構造は構造探索空間を大きく拡大し、より柔軟なモデルを可能にする。
また, 2つの手法のより優れた組み合わせのために, 蒸留処理における干渉を低減する勾配分離戦略を提案する。
GLUE、SQuAD、CoNLL 2003 の実験では、GRAIN は特に高頻度のシステムにおいて他の手法よりも優れており、9,3\%\sim99\% の性能を維持しながら 6\sim7\times$ speedups を達成している。
トランスフォーマーの重量が3$%しか残っていない極端な圧縮下では、プルーニングされたモデルはより大きなモデルに比べてまだ競争力がある。
関連論文リスト
- MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router [55.88046193872355]
Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。
入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。
我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
論文 参考訳(メタデータ) (2024-10-15T19:22:27Z) - Effective Layer Pruning Through Similarity Metric Perspective [0.0]
ディープニューラルネットワークは、認知タスクを解決する機械学習において、主要なパラダイムとなっている。
これらのモデルから構造を抽出することは、ネットワークの複雑さを減らすための簡単なアプローチである。
層プルーニングは、しばしば高い圧縮速度でネットワーク予測能力(すなわち精度)を損なう。
この研究は、プルーニング手法によって追求されるすべての基礎特性を満たす効果的なレイヤ・プルーニング戦略を導入する。
論文 参考訳(メタデータ) (2024-05-27T11:54:51Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Progressive Gradient Flow for Robust N:M Sparsity Training in
Transformers [15.27677493050638]
N:Mの構造的疎水性は、比較的穏やかなオーバーヘッドと効率の向上の結果、大きな関心を集めている。
N:Mの構造的疎性のためのトレーニングレシピの開発は、主に低疎性領域に焦点を当てている。
しかし、これらの手法を用いて訓練されたモデルの性能は、高分離領域に直面すると低下する傾向にある。
論文 参考訳(メタデータ) (2024-02-07T10:55:59Z) - Structured Pruning Learns Compact and Accurate Models [28.54826400747667]
タスク固有の構造化プルーニング法CoFi(粗粒および細粒のプルーニング)を提案する。
CoFiは高度に並列化可能なワークを提供し、蒸留方法を精度とレイテンシの両方で一致させる。
GLUEおよびSQuADデータセットを用いた実験により、CoFiは10倍以上のスピードアップと小さな精度低下でモデルを生成することが示された。
論文 参考訳(メタデータ) (2022-04-01T13:09:56Z) - Sparse Progressive Distillation: Resolving Overfitting under
Pretrain-and-Finetune Paradigm [7.662952656290564]
トランスフォーマーベースの言語モデルのフットプリント要求を減らすために、様々なプルーニング手法が提案されている。
オーバーフィッティングのリスクを減らすことが,プレトレイン・アンド・ファインチューンパラダイムの下での刈り込みの有効性を初めて示す。
論文 参考訳(メタデータ) (2021-10-15T16:42:56Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Block Pruning For Faster Transformers [89.70392810063247]
小型モデルと高速モデルの両方を対象としたブロックプルーニング手法を提案する。
このアプローチは、アテンションヘッドのような基盤となるモデルの完全なコンポーネントを抽出することを学ぶ。
論文 参考訳(メタデータ) (2021-09-10T12:46:32Z) - One-Cycle Pruning: Pruning ConvNets Under a Tight Training Budget [0.0]
ニューラルネットワークにおけるスパーシリティの導入は、パフォーマンスをほぼ無傷に保ちながら、その複雑さを軽減する効率的な方法である。
多くの場合、スパシティは3段階のパイプラインを使用して導入されます。1)モデルを収束させるためにトレーニングし、2)いくつかの基準に従ってモデルをプーンし、3)プルーニングされたモデルを微調整してパフォーマンスを回復します。
本研究では,パイプラインの最初のステップを廃止し,他の2ステップを1回のプルーニングトレーニングサイクルで組み合わせることを提案する。
論文 参考訳(メタデータ) (2021-07-05T15:27:07Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Movement Pruning: Adaptive Sparsity by Fine-Tuning [115.91907953454034]
マグニチュードプルーニング(Magnitude pruning)は、純粋教師付き学習におけるモデルサイズの削減に広く用いられている戦略である。
本稿では,単純な一階重み決定法であるムーブメント・プルーニング(Motion pruning)を提案する。
実験により、大きな事前訓練された言語モデルでプルーニングを行うと、運動プルーニングは高分離性体制において顕著な改善を示すことが示された。
論文 参考訳(メタデータ) (2020-05-15T17:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。