論文の概要: KVSlimmer: Theoretical Insights and Practical Optimizations for Asymmetric KV Merging
- arxiv url: http://arxiv.org/abs/2603.00907v1
- Date: Sun, 01 Mar 2026 04:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.406806
- Title: KVSlimmer: Theoretical Insights and Practical Optimizations for Asymmetric KV Merging
- Title(参考訳): KVSlimmer:非対称KVマージの理論的考察と実践的最適化
- Authors: Lianjun Liu, Hongli An, Weiqi Yan, Xin Du, Shengchuan Zhang, Huazhong Liu, Yunshan Zhong,
- Abstract要約: 既存の手法は、KV非対称性と勾配に基づくヘッセン近似の経験的な観測に依存している。
KVSlimmerは、数学的に正確な定式化によって正確なヘッセン情報をキャプチャする効率的なアルゴリズムである。
様々なモデルとベンチマークの実験により、KVSlimmerはSOTA法を一貫して上回っていることが示された。
- 参考スコア(独自算出の注目度): 24.918959010993888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing computational and memory demands of the Key-Value (KV) cache significantly limit the ability of Large Language Models (LLMs). While KV merging has emerged as a promising solution, existing methods that rely on empirical observations of KV asymmetry and gradient-based Hessian approximations lack a theoretical foundation and incur suboptimal compression and inference overhead. To bridge these gaps, we establish a theoretical framework that characterizes this asymmetry through the spectral energy distribution of projection weights, demonstrating that concentrated spectra in Query/Key weights induce feature homogeneity, whereas dispersed spectra in Value weights preserve heterogeneity. Then, we introduce KVSlimmer, an efficient algorithm that captures exact Hessian information through a mathematically exact formulation, and derives a closed-form solution utilizing only forward-pass variables, resulting in a gradient-free approach that is both memory- and time-efficient. Extensive experiments across various models and benchmarks demonstrate that KVSlimmer consistently outperforms SOTA methods. For instance, on Llama3.1-8B-Instruct, it improves the LongBench average score by 0.92 while reducing memory costs and latency by 29% and 28%, respectively.
- Abstract(参考訳): キーバリュー(KV)キャッシュの計算とメモリ要求の増大により、LLM(Large Language Models)の能力は大幅に制限された。
KV の融合は有望な解として現れてきたが、KV の非対称性と勾配に基づくヘッセン近似の経験的観測に依存する既存の手法では、理論的な基礎が欠如しており、準最適圧縮と推論のオーバーヘッドが不足している。
これらのギャップを埋めるために、我々は射影重みのスペクトルエネルギー分布を通じてこの非対称性を特徴づける理論的枠組みを確立し、クエリ/キー重みの集中スペクトルが特徴均質性を引き起こすのに対し、バリュー重みの分散スペクトルは不均一性を保持することを示した。
そこで我々は,KVSlimmerという,数学的に正確な定式化によって正確なヘッセン情報をキャプチャするアルゴリズムを導入し,フォワードパス変数のみを利用した閉形式解を導出する。
様々なモデルやベンチマークにわたる大規模な実験により、KVSlimmerはSOTA法を一貫して上回っていることが示された。
例えば、Llama3.1-8B-Instructでは、メモリコストとレイテンシをそれぞれ29%と28%削減しながら、LongBenchの平均スコアを0.92改善している。
関連論文リスト
- Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Hessian Spectral Analysis at Foundation Model Scale [1.9244735303181757]
我々は、真のヘッセンの忠実スペクトル解析がフロンティアスケールで抽出可能であることを示す。
我々は、サブ10B体制を超えて、最初の大規模スペクトル密度推定を行う。
論文 参考訳(メタデータ) (2026-01-31T16:57:06Z) - Reinforcement Learning Using known Invariances [54.91261509214309]
本稿では、既知のグループ対称性をカーネルベースの強化学習に組み込むための理論的枠組みを開発する。
対称性を意識したRLは、標準のカーネルよりも大幅に性能が向上することを示す。
論文 参考訳(メタデータ) (2025-11-05T13:56:14Z) - Graph-based Clustering Revisited: A Relaxation of Kernel $k$-Means Perspective [73.18641268511318]
本稿では,クラスタリング結果を導出するための正規制約のみを緩和するグラフベースのクラスタリングアルゴリズムを提案する。
二重制約を勾配に変換するために、非負の制約をクラス確率パラメータに変換する。
論文 参考訳(メタデータ) (2025-09-23T09:14:39Z) - Homogeneous Keys, Heterogeneous Values: Exploiting Local KV Cache Asymmetry for Long-Context LLMs [28.554617623874176]
我々は、KVキャッシュにおいて、基本的かつ以前見過ごされた非対称性を示す。
キー値の非対称性は、既存の圧縮法に限界があることを示している。
均質性に基づく鍵マージと数学的に証明されたロスレス値圧縮を併用したトレーニングフリー圧縮フレームワーク(AsymKV)を提案する。
論文 参考訳(メタデータ) (2025-06-04T16:10:44Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - E$^2$M: Double Bounded $α$-Divergence Optimization for Tensor-based Discrete Density Estimation [3.9633191508712398]
本稿では、E$2Mアルゴリズムと呼ばれる予測最大化(EM)アルゴリズムの一般化を提案する。
Kullback-Leibler (KL) の発散に基づく代理対象の最小化に最適化を緩和することでこの問題を回避する。
このアプローチは、CP、Tucker、Trainフォーマットなど、さまざまな低ランク構造に対してフレキシブルなモデリングを提供します。
論文 参考訳(メタデータ) (2024-05-28T14:28:28Z) - Variance-Reducing Couplings for Random Features [57.73648780299374]
ランダム機能(RF)は、機械学習においてカーネルメソッドをスケールアップする一般的なテクニックである。
ユークリッド空間と離散入力空間の両方で定義されるRFを改善するための結合を求める。
パラダイムとしての分散還元の利点と限界について、驚くほどの結論に達した。
論文 参考訳(メタデータ) (2024-05-26T12:25:09Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence [65.63201894457404]
非線形微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。
鍵となる考え方は、基本的には、対応するフォッカー・プランク方程式のRKHSに基づく近似をそのような観測に適合させることである。
論文 参考訳(メタデータ) (2023-05-24T20:43:47Z) - Utilising the CLT Structure in Stochastic Gradient based Sampling :
Improved Analysis and Faster Algorithms [14.174806471635403]
粒子ダイナミック(IPD)に対するグラディエント・ランゲヴィン・ダイナミクス(SGLD)やランダムバッチ法(RBM)などのサンプリングアルゴリズムの近似を考察する。
近似によって生じる雑音は中央極限定理(CLT)によりほぼガウス的であるが、ブラウン運動はまさにガウス的である。
この構造を利用して拡散過程内の近似誤差を吸収し、これらのアルゴリズムの収束保証を改善する。
論文 参考訳(メタデータ) (2022-06-08T10:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。