論文の概要: MoE-nD: Per-Layer Mixture-of-Experts Routing for Multi-Axis KV Cache Compression
- arxiv url: http://arxiv.org/abs/2604.17695v1
- Date: Mon, 20 Apr 2026 01:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.642913
- Title: MoE-nD: Per-Layer Mixture-of-Experts Routing for Multi-Axis KV Cache Compression
- Title(参考訳): MoE-nD:マルチ軸KVキャッシュ圧縮のための1層混合サーキットルーティング
- Authors: Libo Sun, Peixiong He, Po-Wei Harn, Xiao Qin,
- Abstract要約: 既存の圧縮法は、それぞれ4次元KVテンソルの1軸に作用する。
それぞれの圧縮操作に対して異なる層が非常に異なる応答を示す。
そこで我々は,各レイヤを個別にルーティングするMix-of-expertsフレームワークであるMoE-nDを提案する。
- 参考スコア(独自算出の注目度): 7.208745673318648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: KV cache memory is the dominant bottleneck for long-context LLM inference. Existing compression methods each act on a single axis of the four-dimensional KV tensor -- token eviction (sequence), quantization (precision), low-rank projection (head dimension), or cross-layer sharing -- but apply the same recipe to every layer. We show that this homogeneity leaves accuracy on the table: different layers respond very differently to each compression operation, and the optimal per-layer mix of eviction and quantization is far from uniform. We propose MoE-nD, a mixture-of-experts framework that routes each layer to its own (eviction-ratio, K-bits, V-bits) tuple under a global memory budget. An offline-calibrated greedy solver chooses the routing that minimizes predicted quality loss; at inference time, per-layer heterogeneous eviction and quantization are applied jointly through a single attention patch. On a 4-task subset of LongBench-v1 (16k inputs, n=50 per task, adapted reasoning-model protocol; see section Experiments), MoE-nD's hetero variant matches our uncompressed 1.9~GB baseline at 14x compression (136~MB) while every other compressed baseline we tested (1d, 2d_uniform, 2d) at comparable or smaller memory stays under 8/100. The gains hold on AIME reasoning benchmarks (+6 to +27 pts over the strongest per-layer-quantization baseline across eight configurations). Two null results -- MATH-500 and LongBench's TREC -- share a principled cause (short inputs, solver picks keep=1.0 on most layers), cleanly characterizing when per-layer eviction routing has headroom to help.
- Abstract(参考訳): KVキャッシュメモリは長期LLM推論における主要なボトルネックである。
既存の圧縮手法は、4次元のKVテンソルの1軸 -- トークンの消去(シーケンス)、量子化(精度)、低ランクの投影(ヘッド次元)、またはクロスレイヤーの共有 -- に作用するが、すべての層に同じレシピを適用する。
異なる層がそれぞれの圧縮操作に非常に異なる応答をし、最適の1層当たりのエビテーションと量子化の混合は、一様ではない。
我々は,グローバルメモリ予算の下で各レイヤを独自のタプル(エビテーション比,Kビット,Vビット)にルーティングする,試験用混合フレームワークであるMoE-nDを提案する。
オフライン校正グリーディ解決器は、予測品質損失を最小限に抑えるルーティングを選択する。
LongBench-v1 の 4-task サブセット (16k 入力、タスク当たり n=50 ) では、MoE-nD のヘテロ変種は、14x 圧縮 (136~MB) において、圧縮されていない 1.9~GB のベースラインと一致します。
AIME推論ベンチマーク(8つの構成で最強の層ごとの量子化ベースラインを+6から+27 pts上回る)の上昇は、AIMEの推論ベンチマークに支えられている。
MATH-500 と LongBench の TREC の2つのヌル結果は、原則化された原因(短い入力、ソルバがほとんどの層で keep=1.0 を選択する)を共有している。
関連論文リスト
- HybridKV: Hybrid KV Cache Compression for Efficient Multimodal Large Language Model Inference [23.016627145448467]
MLLM(Multimodal Large Language Models)は、テキスト、画像、ビデオに対する高度な統一推論である。
各ビジュアル入力は数千のトークンに拡張され、キャッシュはコンテキスト長と線形にスケールする。
一般的な解決策は、固定された予算の下で異なる粒度でキャッシュを圧縮することである。
相補的戦略を3段階に統合したハイブリッドKVキャッシュ圧縮フレームワークであるHybridKVを提案する。
論文 参考訳(メタデータ) (2026-04-07T13:51:07Z) - KVSculpt: KV Cache Compression as Distillation [7.085426079187912]
KVキャッシュ圧縮は、効率的なLLM推論に重要である。
既存のメソッドは、純粋な消去 -- どのKVペアを保持するかを選択する -- から、類似のペアをより少ないものに組み合わせたマージまで、さまざまです。
我々は、このスペクトルの反対側に移動するKVSculptを提案する。
鍵はL-BFGSで最適化され、最小二乗で閉形式で解かれる。
論文 参考訳(メタデータ) (2026-03-29T19:14:25Z) - SPQ: An Ensemble Technique for Large Language Model Compression [1.2891210250935148]
SPQ(SVD-Pruning-Quantization)は,大規模言語モデルLLM圧縮のためのアンサンブル手法である。
最大75%のメモリ削減を実現し、パープレキシティを維持または改善する。
GPTQよりも推論を改善し、最大1.9倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2026-02-20T18:44:16Z) - CommonKV: Compressing KV Cache with Cross-layer Parameter Sharing [54.34080239841088]
CommonKVは、隣接パラメータ共有による層間KVキャッシュ圧縮のトレーニング不要な方法である。
提案手法は,様々な圧縮比で既存の低ランクおよびクロスレイヤーの手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-22T06:55:45Z) - Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model [0.0]
Mix-QSAMはSegment Anything Model(SAM)のためのPTQフレームワークである。
モデル出力に対する各レイヤの寄与を定量化するために,Kulback-Leibler (KL) 偏差を用いて導出したレイヤ単位の重要度スコアを導入する。
また、隣接層間の依存関係を捉えるために、因果的相互情報に基づく新しい計量である層間相乗法を導入する。
論文 参考訳(メタデータ) (2025-05-08T00:08:31Z) - EMS: Adaptive Evict-then-Merge Strategy for Head-wise KV Cache Compression Based on Global-Local Importance [44.14919492126948]
メモリオーバーヘッドが重要になるにつれて、KVキャッシュの効率的な圧縮が注目されている。
我々は,これらの制限を克服すると同時に,極端な圧縮比下でのKVキャッシュ圧縮を向上するEMSを提案する。
EMSは最低の難易度を一貫して達成し、256のキャッシュ予算の下でLongBench上の4つのLLMで1.28ポイント以上改善し、Needdle-in-a-Haystackタスクのコンテキスト長の2%未満のキャッシュ予算で95%の検索精度を維持している。
論文 参考訳(メタデータ) (2024-12-11T16:35:13Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Kernel Quantization for Efficient Network Compression [59.55192551370948]
Kernel Quantization(KQ)は、事前訓練された全精度畳み込みニューラルネットワーク(CNN)モデルを、大幅なパフォーマンス損失のない低精度バージョンに効率的に変換することを目的としている。
重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。
ImageNet分類タスクの実験では、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表す。
論文 参考訳(メタデータ) (2020-03-11T08:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。