論文の概要: TriAxialKV: Toward Extreme Low-Precision KV-Cache Quantization for Agentic Inference Tasks
- arxiv url: http://arxiv.org/abs/2605.17170v1
- Date: Sat, 16 May 2026 21:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.719029
- Title: TriAxialKV: Toward Extreme Low-Precision KV-Cache Quantization for Agentic Inference Tasks
- Title(参考訳): TriAxialKV:エージェント推論タスクのための極低精度KVキャッシュ量子化を目指して
- Authors: Hanzhang Shen, Haoran Wu, Yiren Zhao, Robert Mullins,
- Abstract要約: エージェントワークロードのための新しい混合精度KV-cache量子化スキームであるTriAxialKVを紹介する。
我々は、キャリブレーション、混合精度量子化、メモリ管理を含むエンドツーエンドサービスシステムとしてTriAxialKVを実装した。
- 参考スコア(独自算出の注目度): 20.031258206130154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic workloads have emerged as a major workload for LLM inference. They differ significantly from chat-only workloads, requiring long-context processing, the ability to handle multimodal inputs, and structured multi-turn interactions with tool calling capabilities. As a result, their context exhibits structure that can carry different importance along three key axes: temporal recency to the current turn, modality such as text or image tokens, and semantic role such as user queries, tool calls, observations, or reasoning. These axes capture distinct token behaviors and lead to different sensitivities to KV-cache compression. However, existing KV-cache quantization methods are typically homogeneous or exploit only heterogeneity on a single dimension, such as temporal proximity or modality, overlooking the interactions among them. To this end, we introduce TriAxialKV, a novel mixed-precision KV-cache quantization scheme that assigns each token a triaxial tag, calibrates per-tag sensitivity, and allocates INT2/INT4 bitwidths under a fixed memory budget. We implement TriAxialKV as an end-to-end serving system, comprising calibration, mixed-precision quantization and memory management, and custom fused Triton decode kernels. When using Qwen3-VL-32B-Thinking as a computer-use agent operating the OSWorld, TriAxialKV matches the accuracy of SGLang with BF16 KV cache while supporting 4.5$\times$ KV cache size and achieving 30% higher end-to-end throughput, when running on real GPU systems.
- Abstract(参考訳): LLM推論の大きなワークロードとしてエージェントワークロードが登場した。
チャットのみのワークロードとは大きく異なり、長時間のコンテキスト処理、マルチモーダル入力の処理機能、ツール呼び出し機能との構造化されたマルチターンインタラクションが必要になる。
結果として、それらのコンテキストは3つの重要な軸に沿って異なる重要性を持つ構造を示す: 現在の旋回への時間的正確性、テキストや画像トークンのようなモダリティ、ユーザクエリ、ツールコール、観察、推論のようなセマンティックな役割である。
これらの軸は異なるトークンの挙動を捉え、KV-cache圧縮に対する異なる感度をもたらす。
しかし、既存のKV-cache量子化法は典型的には均質であり、時間的近接性やモダリティのような単一の次元における不均一性のみを利用して、それらの相互作用を見渡す。
この目的のために、TriAxialKVは、新しい混合精度KV-cache量子化スキームで、各トークンに3軸タグを割り当て、タグごとの感度を校正し、固定メモリ予算の下でINT2/INT4ビット幅を割り当てる。
我々はTriAxialKVを、キャリブレーション、混合精度量子化、メモリ管理、カスタムフューズされたTritonデコードカーネルを含むエンドツーエンドサービスシステムとして実装する。
OSWorldを運用するコンピュータ使用エージェントとしてQwen3-VL-32B-Thinkingを使用する場合、TriAxialKVは、SGLangの精度とBF16 KVキャッシュとを一致させ、4.5$\times$ KVキャッシュサイズをサポートし、実際のGPUシステム上で実行する際に、30%高いエンドツーエンドスループットを達成する。
関連論文リスト
- SAW-INT4: System-Aware 4-Bit KV-Cache Quantization for Real-World LLM Serving [42.268254679163725]
KV-cacheは、現実世界のLLMサービスにおける主要なボトルネックである。
多くのKV-cache圧縮法は実用的なサービス制約に違反している。
我々は、ページ化されたKV-cacheレイアウトに直接統合する融合回転量子化カーネルを実装した。
論文 参考訳(メタデータ) (2026-04-21T07:12:23Z) - InnerQ: Hardware-aware Tuning-free Quantization of KV Cache for Large Language Models [4.4248984733976275]
innerQはハードウェア対応のKVキャッシュ量子化スキームで、精度を犠牲にすることなく遅延を復号する。
内部次元上のキャッシュ行列をグループ化しながら、グループワイズ量子化を適用する。
Llamaモデルに対する評価実験により、InnerQは非量子化KVキャッシュに匹敵する数ショットのGSM8K性能を維持していることが示された。
論文 参考訳(メタデータ) (2026-02-26T16:50:36Z) - ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs [1.1267872663780352]
大規模言語モデル(LLM)は、超長期のコンテキスト推論を必要とするシナリオにますますデプロイされている。
既存のメモリ削減技術、例えば消去や量子化は、しばしば静的キャッシュに依存している。
キャッシュされたトークンに精度レベルを動的に割り当てる軽量で適応的なフレームワークARKVを提案する。
論文 参考訳(メタデータ) (2026-02-19T16:24:08Z) - S$^3$-Attention:Attention-Aligned Endogenous Retrieval for Memory-Bounded Long-Context Inference [11.779449360037518]
S3-Attentionは,長期コンテキスト処理を注目に順応した内因性検索として扱うメモリファースト推論時フレームワークである。
S3-Attentionは、軽量なスパースオートエンコーダを使用して、トランジェントキーとクエリプロジェクションをトップkスパース機能識別子にデコードする。
単一のストリーミングスキャン中にトークンの位置やスパンにCPUベースの逆インデックスマッピング機能を構築する。
論文 参考訳(メタデータ) (2026-01-25T05:25:22Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - XQuant: Achieving Ultra-Low Bit KV Cache Quantization with Cross-Layer Compression [54.28208936996186]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
量子化は、歴史的情報を保持しながらメモリ消費を減らすための有望な解決策として現れてきた。
超低等価ビット幅KVキャッシュ量子化を実現するトレーニングフリーでプラグアンドプレイのフレームワークであるXQuantを提案する。
論文 参考訳(メタデータ) (2025-10-13T10:17:21Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - DiffKV: Differentiated Memory Management for Large Language Models with Parallel KV Compaction [33.936381781692994]
DiffKVは効率的なKVキャッシュ圧縮のための新しいフレームワークである。
KVキャッシュにおける3つのレベルの分化を利用する。
KVキャッシュを2.7Times$から5.7times$に圧縮できる。
論文 参考訳(メタデータ) (2024-12-04T08:51:23Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。