論文の概要: QCQA: Quality and Capacity-aware grouped Query Attention
- arxiv url: http://arxiv.org/abs/2406.10247v1
- Date: Sat, 8 Jun 2024 07:49:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-23 13:35:51.769311
- Title: QCQA: Quality and Capacity-aware grouped Query Attention
- Title(参考訳): QCQA: 品質とキャパシティを意識したグループクエリアテンション
- Authors: Vinay Joshi, Prashant Laddha, Shambhavi Sinha, Om Ji Omer, Sreenivas Subramoney,
- Abstract要約: キー・アンド・バリュー機能(KV-cache)の過剰なメモリ要件は、大規模言語モデル(LLM)の自動回帰推論において重大な課題をもたらす。
本稿では,QCQA(Quality and Aware Grouped Query Attention)を提案する。
- 参考スコア(独自算出の注目度): 5.121164018825873
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Excessive memory requirements of key and value features (KV-cache) present significant challenges in the autoregressive inference of large language models (LLMs), restricting both the speed and length of text generation. Approaches such as Multi-Query Attention (MQA) and Grouped Query Attention (GQA) mitigate these challenges by grouping query heads and consequently reducing the number of corresponding key and value heads. However, MQA and GQA decrease the KV-cache size requirements at the expense of LLM accuracy (quality of text generation). These methods do not ensure an optimal tradeoff between KV-cache size and text generation quality due to the absence of quality-aware grouping of query heads. To address this issue, we propose Quality and Capacity-Aware Grouped Query Attention (QCQA), which identifies optimal query head groupings using an evolutionary algorithm with a computationally efficient and inexpensive fitness function. We demonstrate that QCQA achieves a significantly better tradeoff between KV-cache capacity and LLM accuracy compared to GQA. For the Llama2 $7\,$B model, QCQA achieves $\mathbf{20}$\% higher accuracy than GQA with similar KV-cache size requirements in the absence of fine-tuning. After fine-tuning both QCQA and GQA, for a similar KV-cache size, QCQA provides $\mathbf{10.55}\,$\% higher accuracy than GQA. Furthermore, QCQA requires $40\,$\% less KV-cache size than GQA to attain similar accuracy. The proposed quality and capacity-aware grouping of query heads can serve as a new paradigm for KV-cache optimization in autoregressive LLM inference.
- Abstract(参考訳): キーと値の特徴(KV-cache)の過剰なメモリ要件は、大きな言語モデル(LLM)の自動回帰推論において大きな課題をもたらし、テキスト生成の速度と長さを制限している。
Multi-Query Attention(MQA)やGrouped Query Attention(GQA)といったアプローチは、クエリヘッドをグループ化することでこれらの課題を軽減する。
しかし、MQAとGQAは、LLMの精度(テキスト生成の品質)を犠牲にして、KVキャッシュサイズ要件を小さくする。
これらの手法は、クエリーヘッドの品質を意識しないグループ化がないため、KVキャッシュサイズとテキスト生成品質の最適なトレードオフを保証しない。
この問題に対処するため,我々はQCQA(Quality and Capacity-Aware Grouped Query Attention)を提案する。
我々は,QCQAが,GQAと比較して,KVキャッシュ容量とLLM精度のトレードオフを著しく向上できることを実証した。
Llama2 7\,$B モデルの場合、QCQA は GQA よりも$\mathbf{20}$\% 高い精度を達成する。
QCQA と GQA の両方を微調整した後、同様の KV-cache サイズで、QCQA は GQA よりも高い精度で $\mathbf{10.55}\,$\% を提供する。
さらに、QCQAは、類似の精度を得るために、GQAよりもKVキャッシュサイズを40,$\%少なくする必要がある。
提案するクエリヘッドの品質とキャパシティを考慮したグループ化は,自己回帰型LLM推論におけるKV-cache最適化の新たなパラダイムとして機能する。
関連論文リスト
- Not All Heads Matter: A Head-Level KV Cache Compression Method with Integrated Retrieval and Reasoning [19.942402563256962]
キーバリューキャッシング(キーバリューキャッシング、英: Key-Value cache)は、大規模言語モデル(LLM)の計算効率を高めるための一般的な手法である。
本稿では,新たな文脈推論能力推定手法であるヘッドKVとヘッドKV-R2を提案する。
本手法は,文脈質問応答ベンチマークにおいて,全KVキャッシュの性能の97%を達成しつつ,KVキャッシュの1.5%しか保持しない。
論文 参考訳(メタデータ) (2024-10-25T02:22:00Z) - Boosting CLIP Adaptation for Image Quality Assessment via Meta-Prompt Learning and Gradient Regularization [55.09893295671917]
本稿では,Gdient-Regulated Meta-Prompt IQA Framework (GRMP-IQA)を紹介する。
GRMP-IQAはMeta-Prompt事前学習モジュールとQuality-Aware Gradient Regularizationの2つの主要なモジュールから構成されている。
5つの標準BIQAデータセットの実験は、限られたデータ設定下での最先端BIQA手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - Beyond Uniform Query Distribution: Key-Driven Grouped Query Attention [3.3457276841127315]
トランスフォーマーアーキテクチャは、自己認識機構を通じてディープラーニングに革命をもたらした。
Grouped Query Attention (GQA)は、クエリをグループ化し、対応するキー値ヘッドを平均プールすることでこの問題に対処する。
グループ化の静的な性質から逸脱する2つの新しいアプローチに焦点を当てたGQAの拡張を導入する。
論文 参考訳(メタデータ) (2024-08-15T23:34:04Z) - Reducing Transformer Key-Value Cache Size with Cross-Layer Attention [19.796549720022554]
隣接するレイヤ間でキーとバリューヘッドを共有することで、マルチクエリ注意をさらに一歩進めることが可能であることを示す。
また,未修正MQAとほぼ同じ精度を維持しながら,KVキャッシュのサイズを2倍に削減できることが判明した。
論文 参考訳(メタデータ) (2024-05-21T17:59:29Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - GQA: Training Generalized Multi-Query Transformer Models from Multi-Head
Checkpoints [25.154477500940626]
本稿では,既存のマルチヘッド言語モデルのチェックポイントを MQA モデルにアップトレーニングする手法を提案する。
トレーニングされたGQAはMQAに匹敵する速度でマルチヘッドで品質を向上することを示す。
論文 参考訳(メタデータ) (2023-05-22T17:16:38Z) - Matching Game for Optimized Association in Quantum Communication
Networks [65.16483325184237]
本稿では,量子スイッチのためのスワップスタブルな要求-QSアソシエーションアルゴリズムを提案する。
サービスされた要求の割合で、ほぼ最適(5%)のパフォーマンスを達成する。
QCNのサイズが大きくなると、スケーラビリティが向上し、ほぼ最適性能を維持することが示されている。
論文 参考訳(メタデータ) (2023-05-22T03:39:18Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them [70.09741980324912]
問合せ(QA)ペアを直接活用するオープンドメイン問合せ解答モデルは、スピードとメモリの点で有望である。
PAQを補完する新しいQAペアレトリバー、RePAQを紹介します。
PAQはテスト質問をプリエンプションし、キャッシュするので、RePAQは最近の検索・読み取りモデルの精度と一致させることができる。
論文 参考訳(メタデータ) (2021-02-13T23:43:45Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。