論文の概要: Align Attention Heads Before Merging Them: An Effective Way for Converting MHA to GQA
- arxiv url: http://arxiv.org/abs/2412.20677v1
- Date: Mon, 30 Dec 2024 03:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:01:13.545845
- Title: Align Attention Heads Before Merging Them: An Effective Way for Converting MHA to GQA
- Title(参考訳): MHAをGQAに変換する効果的な方法
- Authors: Qingyun Jin, Xiaohui Song, Feng Zhou, Zengchang Qin,
- Abstract要約: キー-値ヘッドの圧縮比が全くないGQAモデルにMHAモデルをプルーニングするための低コストな手法を提案する。
我々の戦略は、LLaMA2-7Bモデルのキー値ヘッドの87.5%を、過剰な性能劣化を伴わずに圧縮することができる。
- 参考スコア(独自算出の注目度): 8.305827430948654
- License:
- Abstract: Large language models have been shown to perform well on a variety of natural language processing problems. However, as the model size and the input sequence's length increase, the rapid increase of KV Cache significantly slows down inference speed. Therefore GQA model, as an alternative to MHA model, has been widely introduced into LLMs. In this work, we propose a low-cost method for pruning MHA models into GQA models with any compression ratio of key-value heads. Our method is based on $\mathit{L_0}$ masks to gradually remove redundant parameters. In addition, we apply orthogonal transformations to attention heads without changing the model to increase similarity between attention heads before pruning training, in order to further improve performance of the model. Our method can be compatible with rotary position embedding (RoPE), which means the model after training can be fully adapted to the mainstream standard GQA framework. Experiments demonstrate that our strategy can compress up to 87.5% of key-value heads of the LLaMA2-7B model without too much performance degradation, just achieved through supervised fine-tuning.
- Abstract(参考訳): 大規模言語モデルは、様々な自然言語処理問題でよく機能することが示されている。
しかし、モデルサイズと入力シーケンスの長さが増加するにつれて、KVキャッシュの急速な増加は推論速度を大幅に低下させる。
したがって、MHAモデルの代替としてGQAモデルはLLMに広く導入されている。
本研究では,キー値ヘッドの圧縮比が全くないGQAモデルに対して,MHAモデルをプルーニングするための低コストな手法を提案する。
我々の手法は、パラメータを徐々に削除するために$\mathit{L_0}$マスクに基づいている。
さらに,本モデルの性能向上を図るため,プレニングトレーニング前に,アテンションヘッド間の類似性を高めるモデルを変更することなく,アテンションヘッドに直交変換を適用する。
本手法は回転位置埋め込み(RoPE)と互換性があり,学習後のモデルを標準GQAフレームワークに完全に適合させることができる。
実験により,LLaMA2-7Bモデルのキー値ヘッドの87.5%を,教師付き微調整により,過剰な性能劣化を伴わずに圧縮できることが実証された。
関連論文リスト
- Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - CAMERO: Consistency Regularized Ensemble of Perturbed Language Models
with Weight Sharing [83.63107444454938]
本稿では,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。
具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。
大規模言語モデルを用いた実験により,CAMEROはアンサンブルモデルの一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-04-13T19:54:51Z) - Scaling Hidden Markov Language Models [118.55908381553056]
この研究は、HMMを言語モデリングデータセットに拡張するという課題を再考する。
本研究では,HMMを大規模状態空間に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-11-09T18:51:55Z) - Stochastic Attention Head Removal: A simple and effective method for
improving Transformer Based ASR Models [40.991809705930955]
トレーニング中に無作為にアテンションヘッドを取り除き、全てのアテンションヘッドをテスト時に保持し、最終モデルは異なるアーキテクチャを持つモデルのアンサンブルである。
提案手法は,ウォールストリートジャーナル,AISHELL,Switchboard,AMIデータセットにおいて,強力なベースラインよりも一貫したパフォーマンス向上を実現する。
論文 参考訳(メタデータ) (2020-11-08T15:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。