Fugu-MT 論文翻訳(概要): AlignedKV: Reducing Memory Access of KV-Cache with Precision-Aligned Quantization

論文の概要: AlignedKV: Reducing Memory Access of KV-Cache with Precision-Aligned Quantization

arxiv url: http://arxiv.org/abs/2409.16546v2
Date: Mon, 21 Oct 2024 05:06:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 17:30:16.690966
Title: AlignedKV: Reducing Memory Access of KV-Cache with Precision-Aligned Quantization
Title（参考訳）: AlignedKV: 高精度量子化によるKVキャッシュのメモリアクセス削減
Authors: Yifan Tan, Haoze Wang, Chao Yan, Yangdong Deng,
Abstract要約: 混合精度量子化は重要なパラメータと重要でないパラメータを区別する。既存の手法は定性的分析と手動実験によってのみ重要なパラメータを識別できる。本稿では,パラメータの重要性を総合的に評価する定量的枠組みを構築するために,いわゆる「精度アライメント」という新しい基準を提案する。
参考スコア（独自算出の注目度）: 5.572159724234467
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Model quantization has become a crucial technique to address the issues of large memory consumption and long inference times associated with LLMs. Mixed-precision quantization, which distinguishes between important and unimportant parameters, stands out among numerous quantization schemes as it achieves a balance between precision and compression rate. However, existing approaches can only identify important parameters through qualitative analysis and manual experiments without quantitatively analyzing how their importance is determined. We propose a new criterion, so-called 'precision alignment', to build a quantitative framework to holistically evaluate the importance of parameters in mixed-precision quantization. Our observations on floating point addition under various real-world scenarios suggest that two addends should have identical precision, otherwise the information in the higher-precision number will be wasted. Such an observation offers an essential principle to determine the precision of each parameter in matrix multiplication operation. As the first step towards applying the above discovery to large model inference, we develop a dynamic KV-Cache quantization technique to effectively reduce memory access latency. Different from existing quantization approaches that focus on memory saving, this work directly aims to accelerate LLM inference through quantifying floating numbers. The proposed technique attains a 25% saving of memory access and delivers up to 1.3x speedup in the computation of attention in the decoding phase of LLM, with almost no loss of precision.
Abstract（参考訳）: モデル量子化は、LLMに関連する大きなメモリ消費と長い推論時間の問題に対処する重要な技術となっている。重要なパラメータと重要でないパラメータを区別する混合精度量子化は、精度と圧縮速度のバランスをとるため、多くの量子化スキームの中で際立っている。しかし、既存の手法では、その重要度を定量的に分析することなく、定性的分析や手動実験によって重要なパラメータを特定できるのみである。そこで我々は,混合精度量子化におけるパラメータの重要性を均一に評価する定量的枠組みを構築するために,いわゆる「精密アライメント」という新しい基準を提案する。実世界の様々なシナリオ下での浮動小数点加算に関する観測は、2つの加算が同一の精度を持つべきであることを示唆している。このような観察は、行列乗算演算において各パラメータの精度を決定するために必須の原理を提供する。以上の発見を大規模モデル推論に適用する第一歩として,メモリアクセス遅延を効果的に低減する動的KVキャッシュ量子化技術を開発した。メモリ節約に重点を置く既存の量子化アプローチとは異なり、本研究は浮動小数点数の定量化を通じてLSM推論を加速することを目的としている。提案手法はメモリアクセスの25%の節約を実現し,LCMの復号フェーズにおける注目度計算において最大1.3倍の高速化を実現する。

関連論文リスト

Multi-Parameter Multi-Critical Metrology of the Dicke Model [10.440724472122662]
この研究は、パラメータ推定の精度を高めるために、相転移に近い量子系の過敏性を利用する。マルチパラメータ推定は実現可能であるが,分散精度のスケーリングも維持可能であることを示す。我々の研究結果は、近相転移を動作させる実用的な量子センサーの道を開くものである。
論文参考訳（メタデータ） (2026-03-03T19:06:55Z)
ECO: Quantized Training without Full-Precision Master Weights [58.97082407934466]
Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。 ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
論文参考訳（メタデータ） (2026-01-29T18:35:01Z)
MixKVQ: Query-Aware Mixed-Precision KV Cache Quantization for Long-Context Reasoning [30.527521568636242]
Long Chain-of-Thought (CoT)推論は、Large Language Models (LLM)の機能を大幅に進歩させた。既存の低ビット量子化法は、複雑な推論タスクにおいて深刻な性能劣化を示すことが多い。重要鍵チャネルを識別・保存するための軽量なクエリ対応アルゴリズムであるMixKVQを提案する。
論文参考訳（メタデータ） (2025-12-22T09:44:26Z)
Mixed-Precision Quantization for Language Models: Techniques and Prospects [10.345914140081925]
量子化は、モデルサイズを減らし、メモリボトルネックを緩和し、推論を加速する重要な圧縮技術として登場した。混合精度量子化は、効率と精度のバランスをとるために、層またはテンソル内で精度を選択的に割り振ることで、有望な代替手段を提供する。
論文参考訳（メタデータ） (2025-10-19T12:16:40Z)
MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。 SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文参考訳（メタデータ） (2025-04-28T12:47:23Z)
Quantize What Counts: Bit Allocation Insights Informed by Spectral Gaps in Keys and Values [57.54443445583921]
KV量子化法の拡張を目的とした2つの新しい定理を提供する。我々の最初の定理は、キー値ノルム格差(Key-Value Norm Disparity)と呼ばれ、鍵重み行列がよりリッチな情報を持っていることを述べる。第2の定理であるキー駆動量子化(Key-Driven Quantization)は、値上のキーの量子化精度の優先順位付けは、全体的な量子化性能に大きな改善をもたらすという仮説である。
論文参考訳（メタデータ） (2025-02-20T22:24:27Z)
Channel-Wise Mixed-Precision Quantization for Large Language Models [47.00361921910259]
大規模言語モデル(LLM)は、幅広い言語タスクで顕著な成功を収めている。重みのみの量子化は、LCMのメモリフットプリントを削減するための有望な解決策である。本稿では,CMPQ(Channel-Wise Mixed-Precision Quantization)を提案する。
論文参考訳（メタデータ） (2024-10-16T21:34:41Z)
QSpec: Speculative Decoding with Complementary Quantization Schemes [37.007621357142725]
量子化は、推論を加速し、大きな言語モデルのメモリ消費を減らすために、実質的に採用されている。本稿では、投機的復号化のための2つの相補的量子化スキームをシームレスに統合するQSPECと呼ばれる新しい量子化パラダイムを提案する。 QSPECは、品質上の妥協なしにトークン生成スループットを最大1.80倍向上させる。
論文参考訳（メタデータ） (2024-10-15T05:57:51Z)
Scaling Laws for Mixed quantization in Large Language Models [10.912306313183972]
大規模言語モデル(LLM)の学習後の量子化は、これらのモデルで推論を実行する際の計算量の削減に有効であることが証明されている。本研究では,低精度量子化のための特定の精度やパープレキシティターゲットを目指している場合,LLMを大規模化する際に,高い精度の数値や計算がいくつ必要か,という簡単な問題に焦点をあてる。
論文参考訳（メタデータ） (2024-10-09T09:45:01Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
Accurate Block Quantization in LLMs with Outliers [0.6138671548064355]
極大規模LLMの推理需要はここ数カ月で大きく伸びている。この問題は処理中のシーケンスの長さが爆発的に増加することで増大する。重みとアクティベーションの両方の正確な量子化を可能にする様々な量子化技術が提案されている。
論文参考訳（メタデータ） (2024-03-29T12:15:06Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文参考訳（メタデータ） (2024-02-19T09:04:30Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文参考訳（メタデータ） (2020-11-29T03:53:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。