論文の概要: Gradient-based Intra-attention Pruning on Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2212.07634v1
- Date: Thu, 15 Dec 2022 06:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:43:57.578975
- Title: Gradient-based Intra-attention Pruning on Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルに基づくグラディエント・ベース・イントラアテンション・プルーニング
- Authors: Ziqing Yang, Yiming Cui, Xin Yao, Shijin Wang
- Abstract要約: プルーニングや知識蒸留(KD)といった技術が開発され、そのサイズと遅延を低減している。
本研究は,グラディエント・ベース・イントラアテンション・プルーニング(GRAIN)を提案する。
GRAINは、微妙なアテンション内構造を検査し、異なる頭のサイズを許容する。
- 参考スコア(独自算出の注目度): 21.444503777215637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models achieve superior performance, but they are
computationally expensive due to their large size. Techniques such as pruning
and knowledge distillation (KD) have been developed to reduce their size and
latency. In most structural pruning methods, the pruning units, such as
attention heads and feed-forward hidden dimensions, only span a small model
structure space and limit the structures that the pruning algorithm can
explore. In this work, we propose Gradient-based Intra-attention pruning
(GRAIN), which inspects fine intra-attention structures, and allows different
heads to have different sizes. Intra-attention pruning greatly expands the
searching space of model structures and yields highly heterogeneous structures.
We further propose structure regularization to encourage generating more
regular structures, which achieves higher speedups than heterogeneous ones. We
also integrate KD into the pruning process with a gradient separation strategy
to reduce the interference of KD with the pruning process. GRAIN is evaluated
on a variety of tasks. Results show that it notably outperforms other methods
at the same or similar model size. Even under extreme compression where only
$3\%$ weights in transformers remain, the pruned model is still competitive.
- Abstract(参考訳): 事前訓練された言語モデルは優れた性能を発揮するが、大きなサイズのため計算コストがかかる。
プルーニングや知識蒸留(KD)といった技術が開発され、そのサイズと遅延を低減している。
ほとんどの構造的プルーニング法では、アテンションヘッドやフィードフォワード隠れ次元のようなプルーニング単位は、小さなモデル構造空間をまたぎ、プルーニングアルゴリズムが探索できる構造を制限するだけである。
そこで本研究では, 微細な被着組織を検査し, 異なる頭部のサイズを許容するグライン (gradient-based intra-attention pruning) を提案する。
アテンション内プルーニングはモデル構造の探索空間を大きく拡大し、非常に異質な構造をもたらす。
さらに、不均一な構造よりも高速な構造を生成するため、構造正則化を提案する。
また, 刈り込みプロセスとKDの干渉を低減するため, KDを勾配分離戦略に統合する。
GRAINはさまざまなタスクで評価される。
結果は、同一または類似のモデルサイズで他のメソッドを著しく上回っていることを示している。
変圧器の重量がわずか$3\%の極端な圧縮でも、刈り取られたモデルは競争力がある。
関連論文リスト
- MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router [55.88046193872355]
Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。
入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。
我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
論文 参考訳(メタデータ) (2024-10-15T19:22:27Z) - Effective Layer Pruning Through Similarity Metric Perspective [0.0]
ディープニューラルネットワークは、認知タスクを解決する機械学習において、主要なパラダイムとなっている。
これらのモデルから構造を抽出することは、ネットワークの複雑さを減らすための簡単なアプローチである。
層プルーニングは、しばしば高い圧縮速度でネットワーク予測能力(すなわち精度)を損なう。
この研究は、プルーニング手法によって追求されるすべての基礎特性を満たす効果的なレイヤ・プルーニング戦略を導入する。
論文 参考訳(メタデータ) (2024-05-27T11:54:51Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Progressive Gradient Flow for Robust N:M Sparsity Training in
Transformers [15.27677493050638]
N:Mの構造的疎水性は、比較的穏やかなオーバーヘッドと効率の向上の結果、大きな関心を集めている。
N:Mの構造的疎性のためのトレーニングレシピの開発は、主に低疎性領域に焦点を当てている。
しかし、これらの手法を用いて訓練されたモデルの性能は、高分離領域に直面すると低下する傾向にある。
論文 参考訳(メタデータ) (2024-02-07T10:55:59Z) - Structured Pruning Learns Compact and Accurate Models [28.54826400747667]
タスク固有の構造化プルーニング法CoFi(粗粒および細粒のプルーニング)を提案する。
CoFiは高度に並列化可能なワークを提供し、蒸留方法を精度とレイテンシの両方で一致させる。
GLUEおよびSQuADデータセットを用いた実験により、CoFiは10倍以上のスピードアップと小さな精度低下でモデルを生成することが示された。
論文 参考訳(メタデータ) (2022-04-01T13:09:56Z) - Sparse Progressive Distillation: Resolving Overfitting under
Pretrain-and-Finetune Paradigm [7.662952656290564]
トランスフォーマーベースの言語モデルのフットプリント要求を減らすために、様々なプルーニング手法が提案されている。
オーバーフィッティングのリスクを減らすことが,プレトレイン・アンド・ファインチューンパラダイムの下での刈り込みの有効性を初めて示す。
論文 参考訳(メタデータ) (2021-10-15T16:42:56Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Block Pruning For Faster Transformers [89.70392810063247]
小型モデルと高速モデルの両方を対象としたブロックプルーニング手法を提案する。
このアプローチは、アテンションヘッドのような基盤となるモデルの完全なコンポーネントを抽出することを学ぶ。
論文 参考訳(メタデータ) (2021-09-10T12:46:32Z) - One-Cycle Pruning: Pruning ConvNets Under a Tight Training Budget [0.0]
ニューラルネットワークにおけるスパーシリティの導入は、パフォーマンスをほぼ無傷に保ちながら、その複雑さを軽減する効率的な方法である。
多くの場合、スパシティは3段階のパイプラインを使用して導入されます。1)モデルを収束させるためにトレーニングし、2)いくつかの基準に従ってモデルをプーンし、3)プルーニングされたモデルを微調整してパフォーマンスを回復します。
本研究では,パイプラインの最初のステップを廃止し,他の2ステップを1回のプルーニングトレーニングサイクルで組み合わせることを提案する。
論文 参考訳(メタデータ) (2021-07-05T15:27:07Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Movement Pruning: Adaptive Sparsity by Fine-Tuning [115.91907953454034]
マグニチュードプルーニング(Magnitude pruning)は、純粋教師付き学習におけるモデルサイズの削減に広く用いられている戦略である。
本稿では,単純な一階重み決定法であるムーブメント・プルーニング(Motion pruning)を提案する。
実験により、大きな事前訓練された言語モデルでプルーニングを行うと、運動プルーニングは高分離性体制において顕著な改善を示すことが示された。
論文 参考訳(メタデータ) (2020-05-15T17:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。