論文の概要: Multi-matrix Factorization Attention
- arxiv url: http://arxiv.org/abs/2412.19255v1
- Date: Thu, 26 Dec 2024 15:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:53.873941
- Title: Multi-matrix Factorization Attention
- Title(参考訳): マルチマトリックスファクトリゼーションの留意点
- Authors: Jingcheng Hu, Houyi Li, Yinmin Zhang, Zili Wang, Shuigeng Zhou, Xiangyu Zhang, Heung-Yeung Shum,
- Abstract要約: MFA(Multi-Matrix Factorization Attention)とMFA-Key-Reuse(MFA-KR)を提案する。
MFAは、アテンションヘッドの数と次元の両方を効率的にスケールアップすることで、モデルキャパシティを向上させる。
MFA-KRはキーキャッシュを値として再利用することでメモリ要求をさらに削減する。
- 参考スコア(独自算出の注目度): 26.25946408014447
- License:
- Abstract: We propose novel attention architectures, Multi-matrix Factorization Attention (MFA) and MFA-Key-Reuse (MFA-KR). Existing variants for standard Multi-Head Attention (MHA), including SOTA methods like MLA, fail to maintain as strong performance under stringent Key-Value cache (KV cache) constraints. MFA enhances model capacity by efficiently scaling up both the number and dimension of attention heads through low-rank matrix factorization in the Query-Key (QK) circuit. Extending MFA, MFA-KR further reduces memory requirements by repurposing the key cache as value through value projection re-parameterization. MFA's design enables strong model capacity when working under tight KV cache budget, while MFA-KR is suitable for even harsher KV cache limits with minor performance trade-off. Notably, in our extensive and large-scale experiments, the proposed architecture outperforms MLA and performs comparably to MHA, while reducing KV cache usage by up to 56% and 93.7%, respectively.
- Abstract(参考訳): 本稿では,MFA(Multi-Matrix Factorization Attention)とMFA-Key-Reuse(MFA-KR)という新しいアーキテクチャを提案する。
MLAのようなSOTAメソッドを含む、既存のMHA(Multi-Head Attention)の変種は、強いキーバリューキャッシュ(KVキャッシュ)制約の下では、強いパフォーマンスを維持することができない。
MFAは、Query-Key (QK) 回路の低ランク行列係数化により、アテンションヘッドの数と次元の両方を効率的にスケールアップすることで、モデルキャパシティを向上させる。
MFAを拡張したMFA-KRは、値プロジェクションの再パラメータ化を通じてキーキャッシュを値として再利用することで、メモリ要求をさらに削減する。
MFAの設計は、厳格なKVキャッシュ予算の下で作業する場合に強力なモデルキャパシティを実現する一方、MFA-KRは、より厳しいKVキャッシュ制限に適しており、パフォーマンスのトレードオフは少ない。
特に、我々の大規模かつ大規模な実験では、提案アーキテクチャはMLAより優れ、それぞれ56%と93.7%のKVキャッシュ使用率でMHAと互換性がある。
関連論文リスト
- AsymKV: Enabling 1-Bit Quantization of KV Cache with Layer-Wise Asymmetric Quantization Configurations [36.63586957377984]
大規模な言語モデルは、しばしばかなりのストレージスペースを必要とする。
パラメータ数が膨大であるため、これらのモデルは大きなストレージスペースを必要とすることが多い。
1つの研究方向は、浮動小数点数の整数置換を用いてモデルを圧縮することを提案する。
論文 参考訳(メタデータ) (2024-10-17T04:35:57Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding [13.272502334507617]
マルチレイヤキーバリュー(MLKV)共有は,トランスフォーマー層にまたがってKV共有を拡張し,メモリ使用量を削減する手法である。
アップトレーニングされたPythia-160M 変種を用いた様々な NLP ベンチマークと推論メトリクスの評価は、MLKV が性能損失を最小限に抑えてメモリ使用量を大幅に削減することを示した。
論文 参考訳(メタデータ) (2024-06-13T16:33:44Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z) - Reducing Transformer Key-Value Cache Size with Cross-Layer Attention [19.796549720022554]
隣接するレイヤ間でキーとバリューヘッドを共有することで、マルチクエリ注意をさらに一歩進めることが可能であることを示す。
また,未修正MQAとほぼ同じ精度を維持しながら,KVキャッシュのサイズを2倍に削減できることが判明した。
論文 参考訳(メタデータ) (2024-05-21T17:59:29Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。