Fugu-MT 論文翻訳(概要): Cross-layer Attention Sharing for Large Language Models

論文の概要: Cross-layer Attention Sharing for Large Language Models

arxiv url: http://arxiv.org/abs/2408.01890v1
Date: Sun, 4 Aug 2024 00:38:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 18:01:12.243530
Title: Cross-layer Attention Sharing for Large Language Models
Title（参考訳）: 大規模言語モデルのための層間アテンション共有
Authors: Yongyu Mu, Yuzhang Wu, Yuchun Fan, Chenglong Wang, Hengyu Li, Qiaozhi He, Murun Yang, Tong Xiao, Jingbo Zhu,
Abstract要約: LiSAは、十分に訓練された大規模言語モデルにおける自己注意の軽量な代替品である。 LLaMA3-8Bでは最大スループットが19.5%、LLaMA2-7Bでは32.3%向上した。
参考スコア（独自算出の注目度）: 44.53618643180393
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) evolve, the increase in model depth and parameter number leads to substantial redundancy. To enhance the efficiency of the attention mechanism, previous works primarily compress the KV cache or group attention heads, while largely overlooking redundancy between layers. Our comprehensive analyses across various LLMs show that highly similar attention patterns persist within most layers. It's intuitive to save the computation by sharing attention weights across layers. However, further analysis reveals two challenges: (1) Directly sharing the weight matrix without carefully rearranging the attention heads proves to be ineffective; (2) Shallow layers are vulnerable to small deviations in attention weights. Driven by these insights, we introduce LiSA, a lightweight substitute for self-attention in well-trained LLMs. LiSA employs tiny feed-forward networks to align attention heads between adjacent layers and low-rank matrices to approximate differences in layer-wise attention weights. Evaluations encompassing 13 typical benchmarks demonstrate that LiSA maintains high response quality in terms of accuracy and perplexity while reducing redundant attention calculations within 53-84% of the total layers. Our implementations of LiSA achieve a 6X compression of Q and K, with maximum throughput improvements of 19.5% for LLaMA3-8B and 32.3% for LLaMA2-7B.
Abstract（参考訳）: 大きな言語モデル(LLM)が進化するにつれて、モデルの深さとパラメータ数が増加すると、かなりの冗長性がもたらされる。注意機構の効率を高めるため、従来の作業は主にKVキャッシュやグループアテンションヘッドを圧縮し、層間の冗長性をほとんど見落としていた。様々なLCMを包括的に分析した結果,多くの層に非常に類似した注意パターンが持続していることが判明した。レイヤ間で注意重みを共有することで計算を省くのは直感的です。しかし、さらに分析した結果、(1)注意ヘッドを慎重に並べ替えることなく直接重み行列を共有することは効果が低いこと、(2)注意重みの小さな偏差に弱いこと、の2つの課題が明らかになった。これらの知見に基づいて、よく訓練されたLLMにおける自己注意の軽量代用であるLiSAを紹介する。 LiSAは、小さなフィードフォワードネットワークを使用して、隣り合う層と低ランクの行列の間に注意を集中させ、層単位での注意重みの差を近似する。 13の典型的なベンチマークを含む評価では、LiSAは、全層の53-84%以内の冗長な注意計算を減らしながら、精度と難易度の観点から高い応答品質を維持している。 LLaMA3-8Bでは最大スループットが19.5%、LLaMA2-7Bでは32.3%向上した。

関連論文リスト

IAM: Efficient Inference through Attention Mapping between Different-scale LLMs [74.81417160018856]
IAMフレームワークは、注意計算の高速化とKVキャッシュ使用量の削減という2つの利点を実現する。 IAMはプリフィルを15%高速化し,KVキャッシュ使用量を22.1%削減できることを示す。
論文参考訳（メタデータ） (2025-07-16T06:39:11Z)
Question Tokens Deserve More Attention: Enhancing Large Language Models without Training through Step-by-Step Reading and Question Attention Recalibration [0.36561146074362716]
大規模言語モデル(LLM)は、複雑な問題に対する深い理解を必要とするタスクに悩まされることが多い。本研究では,現在のLLMの限界について考察する。質問トークンを漸進的に処理し,それらの推論を入力構造と整合させるようにLCMを誘導するプロンプトベースの戦略のファミリーを提案する。
論文参考訳（メタデータ） (2025-04-13T02:10:18Z)
Maximum Redundancy Pruning: A Principle-Driven Layerwise Sparsity Allocation for LLMs [24.23702494859769]
大きな言語モデル(LLM)は印象的な機能を示しているが、その巨大なサイズは、現実世界のアプリケーションにデプロイする上で大きな課題をもたらしている。最近の空間割当手法は、しばしば反復や探索に基づいており、それが最適以下の性能に繋がる。我々は,最も冗長な層に浮かぶ反復的プルーニングアルゴリズムである冗長プルーニング(MRP)を提案する。
論文参考訳（メタデータ） (2025-03-24T06:17:30Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文参考訳（メタデータ） (2024-12-09T15:44:22Z)
A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。 i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文参考訳（メタデータ） (2024-12-04T13:56:44Z)
MoH: Multi-Head Attention as Mixture-of-Head Attention [63.67734699877724]
我々は、トランスフォーマーモデルのコアであるマルチヘッドアテンション機構をアップグレードし、以前の精度を維持したり、超えたりしながら効率を向上させる。そこで我々は,Mixture-of-Head attention (MoH)を提案する。まず、MoHは各トークンが適切なアテンションヘッドを選択することを可能にし、精度を損なうことなく推論効率を向上させる。
論文参考訳（メタデータ） (2024-10-15T17:59:44Z)
EchoAtt: Attend, Copy, then Adjust for More Efficient Large Language Models [29.57891007810509]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。本稿では,レイヤ間の注目パターンの類似性を解析し,活用することにより,トランスフォーマーベースモデルの最適化を目的とした,新しいフレームワークであるEchoAttを紹介する。 TinyLLaMA-1.1Bによる最良の結果は、EchoAttが推論速度を15%改善し、トレーニング速度を25%改善し、パラメータ数を約4%削減し、ゼロショット性能を改善したことを示している。
論文参考訳（メタデータ） (2024-09-22T21:08:37Z)
The Uniqueness of LLaMA3-70B Series with Per-Channel Quantization [5.7672452948056545]
量子化は、大規模言語モデル(LLM)を効率的にデプロイするための重要なテクニックである。 W8A8後の量子化がモデル精度に与える影響はいまだ議論の余地がある。我々はLLaMA3-70Bモデルシリーズが量子化に一意に弱い理由を考察する。
論文参考訳（メタデータ） (2024-08-27T15:03:01Z)
Attention Is All You Need But You Don't Need All Of It For Inference of Large Language Models [14.957045047543405]
ドライパー注意層を落とせば、性能はわずかに低下するが、最高のスピードアップにつながる。また、後者の層以外の層をスキップすることは、注意層をスキップする以外は、より多くの層をスキップする性能を低下させる。
論文参考訳（メタデータ） (2024-07-22T10:09:05Z)
Beyond KV Caching: Shared Attention for Efficient LLMs [5.801044612920816]
本稿では,大規模言語モデル(LLM)の効率を高めるための新しい共有注意機構を提案する。提案手法は,先進LLMにおいて観測される注意分布の等方性傾向を利用して,予測に必要な計算フロップとKVキャッシュのサイズを減少させる。以上の結果から,SAは計算資源の保存だけでなく,頑健なモデル性能も維持し,資源制約環境におけるより効率的なLCMの展開を容易にすることが示唆された。
論文参考訳（メタデータ） (2024-07-13T07:23:07Z)
An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs [54.91212829143966]
本研究では、LLaMA3の低ビット幅への量子化能力について検討する。我々は,LLaMA3の1-8ビットおよび多種多様なデータセットに対して,学習後量子化とLLaMA3のLoRAファインタニング法を10種類評価した。実験の結果,LLaMA3は言語的・視覚的文脈において,相変わらず非言語的劣化をきたしていることが明らかとなった。
論文参考訳（メタデータ） (2024-04-22T10:03:03Z)
Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment [58.030196381554745]
大規模言語モデル (LLM) の刈り取りにおける重み付け重要度の評価を, 微粒化と粗粒化にマージする手法であるHybrid-fine Weight Importance Assessment (HyWIA) を導入する。 LLaMA-V1/V2, Vicuna, Baichuan, Bloomの様々なベンチマークによる大規模な実験により, 刈り込みLDMにおけるHyWIAの有効性が示された。
論文参考訳（メタデータ） (2024-03-16T04:12:50Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)
Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity [88.62935593360162]
大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。 OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
論文参考訳（メタデータ） (2023-10-08T14:22:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。