論文の概要: How Much Cache Does Reasoning Need? Depth-Cache Tradeoffs in KV-Compressed Transformers
- arxiv url: http://arxiv.org/abs/2604.17935v1
- Date: Mon, 20 Apr 2026 08:15:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.759651
- Title: How Much Cache Does Reasoning Need? Depth-Cache Tradeoffs in KV-Compressed Transformers
- Title(参考訳): キャッシュはどのくらい必要か? KV圧縮トランスの深さキャッシュトレードオフ
- Authors: Xiao Wang,
- Abstract要約: キーバリュー(KV)キャッシュは、Transformer推論時の主要なメモリボトルネックである。
多段階の推論が劣化する前に、いかに積極的に圧縮できるかを考察する。
- 参考スコア(独自算出の注目度): 5.705685936981751
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The key-value (KV) cache is the dominant memory bottleneck during Transformer inference, yet little is known theoretically about how aggressively it can be compressed before multi-step reasoning degrades. We study this through $k$-hop pointer chasing on $n$ tokens under a shared KV cache of size $s$, attention dimension $m$, $H$ heads, $p$-bit precision, and a locality-respecting cache controller (satisfied by all standard KV-compression methods). We give three results. (1) Product depth lower bound (conjectured). We conjecture that any such Transformer ($n \geq 4k$, $s \leq \sqrt{n}/4$) requires depth $L = Ω(\lceil k/s \rceil \cdot \lceil \log_2 n/(Hmp) \rceil)$, and isolate the sole remaining gap as a probabilistic step on the joint distribution of cache trace and pointer chain. Unconditionally, we prove a matching upper bound $L = O(\min(k, \lceil k/s \rceil \log s) \cdot \log n/(mp))$ via windowed pointer doubling, and a max-bound $L = Ω(\max(\lceil k/s \rceil, \log n/(Hmp)))$. Closing the conjecture amounts to upgrading max to product. (2) Bandwidth barrier. The product bound binds only when $Hmp \lesssim \log n$. Any lower bound provable via per-window distinguishability counting -- including reachability, bandwidth, and combinations -- cannot exceed $\lceil k/s \rceil$ once $Hmp \geq \log_2 n$. Breaking this requires lifting unconditional communication-complexity bounds for pointer chasing to Cache-Transformer depth. (3) Adaptive vs oblivious error scaling. Under random cache over $T = \lceil \log_2 k \rceil$ doubling stages, oblivious caches give $\Pr[\mathcal{E}] \leq (s/(n-T))^T + 2T^3/n$ (exponential in $T$), while adaptive locality-respecting caches achieve $\Pr[\mathcal{E}] = s/n$ exactly, independent of $T$. The $Ω((n/s)^{T-1})$ separation explains why heavy-hitter eviction empirically dominates random eviction for multi-hop reasoning.
- Abstract(参考訳): キー値(KV)キャッシュは、Transformer推論において支配的なメモリボトルネックである。
我々は、$k$-hopポインターで、共有KVキャッシュサイズ$s$、アテンションディメンション$m$、$H$ヘッド、$p$-bit精度、およびローカリティ参照キャッシュコントローラ(すべての標準KV圧縮メソッドに満足)の下で、$n$トークンを追いかける。
3つの結果が得られます。
1)製品深度下限(予定)
そのような変換子(n \geq 4k$, $s \leq \sqrt{n}/4$)は、深さ$L = Ω(\lceil k/s \rceil \cdot \lceil \log_2 n/(Hmp) \rceil)$を必要とし、キャッシュトレースとポインタチェインの共分散の確率的なステップとして唯一の残りのギャップを分離する。
非条件で、一致する上界$L = O(\min(k, \lceil k/s \rceil \log s) \cdot \log n/(mp))$ を窓付きポインタ倍数で証明し、最大有界$L = Ω(\max(\lceil k/s \rceil, \log n/(Hmp))$ を証明した。
予想を閉じると、最大積を製品にアップグレードする。
2)帯域障壁
積束縛は$Hmp \lesssim \log n$ のときのみ結合する。
ウィンドウごとの識別可能性(リーチビリティ、帯域幅、組み合わせを含む)で証明可能な下限は、$\lceil k/s \rceil$ once $Hmp \geq \log_2 n$を超えることはできない。
これを打ち破るには、Cache-Transformerの深さに追従するポインタに対して、無条件の通信複雑な境界を持ち上げる必要がある。
(3)適応的対強大なエラースケーリング。
ランダムキャッシュで$T = \lceil \log_2 k \rceil$ 2倍のステージでは、暗黙のキャッシュは$\Pr[\mathcal{E}] \leq (s/(n-T))^T + 2T^3/n$ (exponential in $T$)を与えるが、適応的な局所性参照キャッシュは$\Pr[\mathcal{E}] = s/n$は$T$とは独立である。
Ω((n/s)^{T-1})$分離は、なぜ重ヒッタイデレーションがマルチホップ推論のランダムイデレーションを経験的に支配するかを説明する。
関連論文リスト
- Deterministic Hardness of Approximation of Unique-SVP and GapSVP in $\ell_p$ norms for $p>2$ [0.0]
我々は、$ell_p$ norm(mathsfSVP_p$)およびUnique-SVP(mathsfuSVP_p$)における最短ベクトル問題に対する近似結果の決定的困難性を確立する。
すべての$p > 2$に対して、定数比硬さを証明します: no-time algorithm almosts $mathsfSVP_p$ or $mathsfuSVP_p$ in a ratio of $sqrt2 - o(1)$。
論文 参考訳(メタデータ) (2025-10-19T20:17:26Z) - $\mathrm{TIME}[t]\subseteq \mathrm{SPACE}[O(\sqrt{t})]$ via Tree Height Compression [0.0]
Algebraic Replay Engineは、ポインターレスDSSとインデックスなしストリーミングとともに、一定の大きさのフィールド上の一定度マップを持つ。
S(b)=O(b+t/b)$は、残余乗法的ポリログ因子を持たない$O(sqrtt)$空間を与える。
論文 参考訳(メタデータ) (2025-08-20T16:27:53Z) - Nearly Minimax Discrete Distribution Estimation in Kullback-Leibler Divergence with High Probability [11.180770249745791]
クルバック・リーブラー分岐の確率が高い大きさの領域で離散分布を推定する問題を考察する。
最適率は$big(K + ln(K)ln(K) + ln(K)ln(1/delta)big) /n$ at error probability $delta$ and sample size $n$, which pins down the rate up the doublely logarithmic factor $ln ln K$ that multiplies $K$。
論文 参考訳(メタデータ) (2025-07-23T08:30:37Z) - Sharp Gap-Dependent Variance-Aware Regret Bounds for Tabular MDPs [54.28273395444243]
我々は,モノトニック値 Omega (MVP) アルゴリズムが,差分を考慮した差分依存残差境界を$tildeOleft(left(sum_Delta_h(s,a)>0 fracH2 log K land MathttVar_maxtextc$。
論文 参考訳(メタデータ) (2025-06-06T20:33:57Z) - PREM: Privately Answering Statistical Queries with Relative Error [91.98332694700046]
合成データを生成する新しいフレームワークである$mathsfPREM$(Private Relative Error Multiplicative weight update)を紹介します。
我々はアルゴリズムをほぼ一致する下界で補完する。
論文 参考訳(メタデータ) (2025-02-20T18:32:02Z) - Learning junta distributions, quantum junta states, and QAC$^0$ circuits [0.0]
本稿では, 量子分布(量子ユンタ状態)と$mathsfQAC0$回路の学習問題を考察する。
例えば$n$-qubit $mathsfQAC0$の回路は$s$、deep $d$、$a$の補助キュービットは2O(log(s22a)d)log (n)$のChoi状態のコピーから学習可能であることを示す。
論文 参考訳(メタデータ) (2024-10-21T09:39:20Z) - $\ell_p$-Regression in the Arbitrary Partition Model of Communication [59.89387020011663]
コーディネータモデルにおける分散$ell_p$-regression問題のランダム化通信複雑性について考察する。
p = 2$、すなわち最小二乗回帰の場合、$tildeTheta(sd2 + sd/epsilon)$ bitsの最初の最適境界を与える。
p in (1,2)$ に対して、$tildeO(sd2/epsilon + sd/mathrmpoly(epsilon)$ upper bound を得る。
論文 参考訳(メタデータ) (2023-07-11T08:51:53Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Low-Rank Approximation with $1/\epsilon^{1/3}$ Matrix-Vector Products [58.05771390012827]
我々は、任意のSchatten-$p$ノルムの下で、低ランク近似のためのクリロフ部分空間に基づく反復法について研究する。
我々の主な成果は、$tildeO(k/sqrtepsilon)$ matrix-vector productのみを使用するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-10T16:10:41Z) - An Optimal Separation of Randomized and Quantum Query Complexity [67.19751155411075]
すべての決定木に対して、与えられた順序 $ellsqrtbinomdell (1+log n)ell-1,$ sum to at least $cellsqrtbinomdell (1+log n)ell-1,$ where $n$ is the number of variables, $d$ is the tree depth, $c>0$ is a absolute constant。
論文 参考訳(メタデータ) (2020-08-24T06:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。