論文の概要: OCTOPUS: Optimized KV Cache for Transformers via Octahedral Parametrization Under optimal Squared error quantization
- arxiv url: http://arxiv.org/abs/2605.21226v1
- Date: Wed, 20 May 2026 14:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.719585
- Title: OCTOPUS: Optimized KV Cache for Transformers via Octahedral Parametrization Under optimal Squared error quantization
- Title(参考訳): OCTOPUS: 最適二乗誤差量子化の下でのOcahedral Parametrizationによる変換器のKVキャッシュ最適化
- Authors: Mark Boss, Vikram Voleti, Simon Donné, Shimon Vainer,
- Abstract要約: キー値(KV)は自己回帰推論におけるメモリ帯域幅とフットプリントを支配している。
最近の回転プリコンディショニングコーデック(TurboQuant, PolarQuant)は、KV圧縮のほぼ最適レシピである。
OCTOPUSはこのパラダイムを回転座標三重項の結合量子化によって前進させる。
- 参考スコア(独自算出の注目度): 13.284869342523095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The key-value (KV) cache dominates memory bandwidth and footprint in long-context autoregressive inference. Recent rotation-preconditioned codecs (TurboQuant, PolarQuant) show that a structured random rotation followed by a per-coordinate scalar quantizer matched to an analytically tractable marginal is a near-optimal recipe for KV compression. OCTOPUS advances this paradigm through joint quantization of rotated coordinate triplets. Each triplet's direction is mapped to a square via an octahedral parameterization, and the two resulting coordinates and the triplet norm are Lloyd-Max quantized against implementation-matched marginals. Optimizing the per-triplet squared error gives a strictly non-uniform bit allocation depending only on the total dimensionality of the keys. We find the finite-dimensional quality optimum with sweeps to be constant on every real decoder we test. The codec is data-oblivious, online, and deterministic given a seed. Across text, video, and audio, OCTOPUS matches or beats every prior rotation codec at every reported bit width and metric, with a lead that grows as bits drop for extreme compression. Furthermore, a fused Triton implementation reconstructs keys on the fly without materializing the uncompressed key, so the codec adds no decode-time bandwidth or latency over the existing dequantization. Project Page: https://octopus-quant.github.io/
- Abstract(参考訳): キー値(KV)キャッシュは、長文の自動回帰推論においてメモリ帯域幅とフットプリントを支配している。
近年の回転プリコンディショニングコーデック(TurboQuant, PolarQuant)は、KV圧縮のほぼ最適レシピである。
OCTOPUSはこのパラダイムを回転座標三重項の結合量子化によって前進させる。
各三重項の方向は八面体パラメータ化によって正方形にマッピングされ、結果として得られる2つの座標と三重項ノルムは、実装マッチングされた辺辺に対してロイド=マックス量化される。
ストリップレット毎の2乗誤差の最適化は、キーの総次元性にのみ依存する、厳密に一様でないビット割り当てを与える。
テストするすべての実デコーダにおいて、スイープを持つ有限次元品質最適化が定数であることに気付きます。
コーデックは、種が与えられたデータ公開、オンライン、決定論的である。
テキスト、ビデオ、オーディオ全体にわたって、OCTOPUSは、報告されたすべてのビット幅とメートル法で以前のローテーションコーデックと一致または打ち勝つ。
さらに、融合したTriton実装は、圧縮されていないキーを具体化せずに、オンザフライでキーを再構築するので、コーデックは、既存のデクエント化よりもデコードタイムの帯域幅や遅延を追加しない。
Project Page: https://octopus-quant.github.io/
関連論文リスト
- OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond [50.440302567029654]
マルチモーダルインテリジェンスにより、Key-Valueキャッシュは効率的なデプロイメントのための主要なメモリボトルネックとなった。
本研究では、チャネルごとの量子化パラダイムの本質的な限界を再考する。
X-LLMのための高精度かつ軽量なKVキャッシュ圧縮フレームワークOScaRを提案する。
論文 参考訳(メタデータ) (2026-05-19T10:53:03Z) - FibQuant: Universal Vector Quantization for Random-Access KV-Cache Compression [35.73320708128261]
固定レートベクトル量子化器のtextscFibQuant を導入する。
コードブックにはBeta-quantile radii, Fibonacci,/,Roberts--Kronecker quasi-Max が組み合わされている。
GPT-2の小さなKVキャッシュでは、textscFibQuantはメモリ-フィデリティフロンティアをトレースする。
論文 参考訳(メタデータ) (2026-05-12T03:45:53Z) - MesonGS++: Post-training Compression of 3D Gaussian Splatting with Hyperparameter Searching [27.114461961869782]
3D Gaussian Splatting(3DGS)は、リアルタイムレンダリングによる高品質なノベルビューを実現するが、そのストレージコストは実用的デプロイメントでは禁止されている。
本稿では,3次元ガウス圧縮のためのサイズ対応ポストトレーニングであるMesonGSを提案する。一方,MesonGSは,共同重要度に基づくプルーニング,オクツリー幾何学,変換,高次球面高調波に対する選択ベクトル量子化,エントロピー符号化によるグループワイド混合精度量子化を併用する。
論文 参考訳(メタデータ) (2026-04-29T15:30:06Z) - 3DTurboQuant: Training-Free Near-Optimal Quantization for 3D Reconstruction Models [2.0789144738685956]
既存の3Dコンストラクタ圧縮方法は、シーンごとの微調整を通じてデータ依存のコードブックを学習する必要がある。
これらのモデルにおける記憶を支配しているパラメータベクトルは、単一のランダム回転が任意の入力を既知のベータ分布の座標に変換する次元範囲に該当する。
我々は,(1)どのパラメータを量子化して,どのビット幅で実験を行うことができるかを予測する次元依存的基準,(2)量子化MSEとシーン毎のレンダリングPSNRを接続するノルム分離境界,(3)回転ベースの量子化を拡張したエントリグループ化戦略を導出する。
論文 参考訳(メタデータ) (2026-04-07T03:06:05Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - Residual vector quantization for KV cache compression in large language model [2.3094645821058735]
KVキャッシュ圧縮法は主にデコード時のメモリ要求を減らすスカラー量子化技術に依存している。
本研究では,大規模言語モデル(LLM)におけるKVキャッシュの圧縮に,高忠実度音声圧縮に広く用いられている残差ベクトル量子化を適用した。
我々は指数移動平均を用いてコードブックを学習し、ベクトル量子化設定に通常使用される入力と出力のプロジェクションを含む他の学習可能なパラメータは存在しない。
論文 参考訳(メタデータ) (2024-10-21T07:20:41Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。