論文の概要: Cross-layer Attention Sharing for Large Language Models
- arxiv url: http://arxiv.org/abs/2408.01890v1
- Date: Sun, 4 Aug 2024 00:38:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 18:01:12.243530
- Title: Cross-layer Attention Sharing for Large Language Models
- Title(参考訳): 大規模言語モデルのための層間アテンション共有
- Authors: Yongyu Mu, Yuzhang Wu, Yuchun Fan, Chenglong Wang, Hengyu Li, Qiaozhi He, Murun Yang, Tong Xiao, Jingbo Zhu,
- Abstract要約: LiSAは、十分に訓練された大規模言語モデルにおける自己注意の軽量な代替品である。
LLaMA3-8Bでは最大スループットが19.5%、LLaMA2-7Bでは32.3%向上した。
- 参考スコア(独自算出の注目度): 44.53618643180393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) evolve, the increase in model depth and parameter number leads to substantial redundancy. To enhance the efficiency of the attention mechanism, previous works primarily compress the KV cache or group attention heads, while largely overlooking redundancy between layers. Our comprehensive analyses across various LLMs show that highly similar attention patterns persist within most layers. It's intuitive to save the computation by sharing attention weights across layers. However, further analysis reveals two challenges: (1) Directly sharing the weight matrix without carefully rearranging the attention heads proves to be ineffective; (2) Shallow layers are vulnerable to small deviations in attention weights. Driven by these insights, we introduce LiSA, a lightweight substitute for self-attention in well-trained LLMs. LiSA employs tiny feed-forward networks to align attention heads between adjacent layers and low-rank matrices to approximate differences in layer-wise attention weights. Evaluations encompassing 13 typical benchmarks demonstrate that LiSA maintains high response quality in terms of accuracy and perplexity while reducing redundant attention calculations within 53-84% of the total layers. Our implementations of LiSA achieve a 6X compression of Q and K, with maximum throughput improvements of 19.5% for LLaMA3-8B and 32.3% for LLaMA2-7B.
- Abstract(参考訳): 大きな言語モデル(LLM)が進化するにつれて、モデルの深さとパラメータ数が増加すると、かなりの冗長性がもたらされる。
注意機構の効率を高めるため、従来の作業は主にKVキャッシュやグループアテンションヘッドを圧縮し、層間の冗長性をほとんど見落としていた。
様々なLCMを包括的に分析した結果,多くの層に非常に類似した注意パターンが持続していることが判明した。
レイヤ間で注意重みを共有することで計算を省くのは直感的です。
しかし、さらに分析した結果、(1)注意ヘッドを慎重に並べ替えることなく直接重み行列を共有することは効果が低いこと、(2)注意重みの小さな偏差に弱いこと、の2つの課題が明らかになった。
これらの知見に基づいて、よく訓練されたLLMにおける自己注意の軽量代用であるLiSAを紹介する。
LiSAは、小さなフィードフォワードネットワークを使用して、隣り合う層と低ランクの行列の間に注意を集中させ、層単位での注意重みの差を近似する。
13の典型的なベンチマークを含む評価では、LiSAは、全層の53-84%以内の冗長な注意計算を減らしながら、精度と難易度の観点から高い応答品質を維持している。
LLaMA3-8Bでは最大スループットが19.5%、LLaMA2-7Bでは32.3%向上した。
関連論文リスト
- STBLLM: Breaking the 1-Bit Barrier with Structured Binary LLMs [42.43051179195973]
本稿では,Large Language Models (LLM) を1ビット未満の精度で圧縮するための,最初の構造バイナライズフレームワークSTBLLMを提案する。
両値化LDMの重み付けは,性能劣化を伴わずにランダムに反転することが可能であり,さらなる圧縮の可能性を示している。
我々は,STBLLMの有効性を評価するために,LLaMA-1/2/3,OPTファミリ,Mistralなど様々な言語モデルに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-08-03T15:07:44Z) - Attention Is All You Need But You Don't Need All Of It For Inference of Large Language Models [14.957045047543405]
ドライパー注意層を落とせば、性能はわずかに低下するが、最高のスピードアップにつながる。
また、後者の層以外の層をスキップすることは、注意層をスキップする以外は、より多くの層をスキップする性能を低下させる。
論文 参考訳(メタデータ) (2024-07-22T10:09:05Z) - Beyond KV Caching: Shared Attention for Efficient LLMs [5.801044612920816]
本稿では,大規模言語モデル(LLM)の効率を高めるための新しい共有注意機構を提案する。
提案手法は,先進LLMにおいて観測される注意分布の等方性傾向を利用して,予測に必要な計算フロップとKVキャッシュのサイズを減少させる。
以上の結果から,SAは計算資源の保存だけでなく,頑健なモデル性能も維持し,資源制約環境におけるより効率的なLCMの展開を容易にすることが示唆された。
論文 参考訳(メタデータ) (2024-07-13T07:23:07Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs [54.91212829143966]
本研究では、LLaMA3の低ビット幅への量子化能力について検討する。
我々は,LLaMA3の1-8ビットおよび多種多様なデータセットに対して,学習後量子化とLLaMA3のLoRAファインタニング法を10種類評価した。
実験の結果,LLaMA3は言語的・視覚的文脈において,相変わらず非言語的劣化をきたしていることが明らかとなった。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - Why Lift so Heavy? Slimming Large Language Models by Cutting Off the
Layers [2.1165011830664673]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対処する際、優れた能力を持っている。
これらのモデルの厳密なサイズは、ストレージ、トレーニング、推論において、層積み重ねによる数十億のパラメータを含むため、課題を生じさせる。
レイヤが少なくても、LLMは、特にテキスト分類タスクのプロンプトベースの微調整において、類似またはより良いパフォーマンスレベルを維持していることを示す。
論文 参考訳(メタデータ) (2024-02-18T20:47:10Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity [88.62935593360162]
大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。
本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。
OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
論文 参考訳(メタデータ) (2023-10-08T14:22:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。