論文の概要: Polynomial Context-Truncation Sensitivity in Autoregressive Language Models: Sequential Wyner-Ziv Bounds for KV Cache Compression
- arxiv url: http://arxiv.org/abs/2605.25085v1
- Date: Sun, 24 May 2026 13:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.749134
- Title: Polynomial Context-Truncation Sensitivity in Autoregressive Language Models: Sequential Wyner-Ziv Bounds for KV Cache Compression
- Title(参考訳): 自己回帰型言語モデルにおける多項的文脈変化感度:KVキャッシュ圧縮のための逐次Wyner-Ziv境界
- Authors: Munsik Kim,
- Abstract要約: 自己回帰言語モデルにおけるオンラインKVキャッシュ圧縮の速度歪み限界について検討する。
我々は,次点分布の文脈乱れに対する感受性が,エンフェロメトリーよりもエフェロメトリー的に崩壊することを発見した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the rate-distortion limits of online KV cache compression in autoregressive language models, formulating it as sequential Wyner-Ziv source coding on the filtration induced by the model, with the next-step query as decoder side information. Empirically, across four models spanning two families and $0.5$-$3$B parameters, we find that the next-token distribution's sensitivity to context truncation decays \emph{polynomially} rather than \emph{geometrically}: a power law improves on an exponential fit by an order of magnitude in extrapolation, the fitted exponent is recovered independently from a sink-plus-recent KL measurement, and the decay is verified to be free of positional-encoding artifacts by a position-preserving ablation. Under a corresponding \emph{polynomial truncation-sensitivity} assumption, our main result characterizes the per-token memory requirement of \emph{suffix-only} cache policies: a sliding-window scheme attains distortion $\varepsilon$ with window $w = O(\varepsilon^{-1/α})$, and -- under an additional two-sided Bayes-risk condition -- a converse shows $w = Ω(\varepsilon^{-1/α})$ is necessary within this policy class, so the scaling is $Θ(\varepsilon^{-1/α})$ for suffix-only policies. Whether recurrent or propagating cache summaries can beat this scaling is left open. An explicit block-Markov scheme achieves the upper bound; its rate-of-convergence exponent matches the converse under additional forward-decay and regularity hypotheses (not implied by truncation sensitivity alone), and differs by a factor of two otherwise. Empirically, the polynomial law predicts the degradation curves of concrete cache policies: recency-based eviction (sliding, sink-plus-recent) suppresses distortion by roughly two orders of magnitude over random retention at equal budget, with a power-law decay in the budget.
- Abstract(参考訳): 自動回帰言語モデルにおけるオンラインKVキャッシュ圧縮の速度歪み限界について検討し,次段階のクエリをデコーダ側情報として,モデルによって誘導されるフィルタ上の逐次Wyner-Zivソース符号化として定式化する。
実験的に、2つの族にまたがる4つのモデルと0.5$-3$Bのパラメータにまたがって、次の分布の文脈トランケーション崩壊に対する感度は、emph{geometrically}ではなく「emph{polynomially}」である。
ウィンドウ$w = O(\varepsilon^{-1/α})$と -- 追加の2辺のBayes-risk条件 -- 逆は$w = Ω(\varepsilon^{-1/α})$である。
このスケーリングを繰り返すか、キャッシュサマリーを伝播させるかは、未解決のままです。
明示的なブロック-マルコフスキームは上限を達成し、その収束率指数は、追加の前方デカイと正則性仮説(トランニケート感度だけでは含まない)の下で逆と一致し、他の2つの因子によって異なる。
多項式法則は、コンクリートのキャッシュポリシーの劣化曲線を予測している: 傾きに基づく消去(スライディング、シンク・プラス・レセント)は、同じ予算でランダムな保持よりも約2桁の歪みを抑える。
関連論文リスト
- How Neural Reward Models Learn Features for Policy Optimization: A Single-Index Analysis [53.063298916923976]
r*(x) = *(langle *, xrangle)$ と $x sim N(0, I_d)$ でガウスの単一インデックスモデルでフィードバックを研究する。
まず、報酬重み付きサンプルから隠れた方向を*$で学習し、次に重み付きリッジ回帰により読み出し層に適合する2段階のニューラル報酬モデルを分析する。
論文 参考訳(メタデータ) (2026-05-23T22:00:38Z) - Self-Attention as a Covariance Readout: A Unified View of In-Context Learning and Repetition [8.250374560598495]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と反復生成の2つの振る舞いを示す。
どちらのモデルも、コンテキストを人口統計と捨てられたトークンレベルの詳細に要約したかのように振る舞う。
この要約と「忘れる」は、注意機構自体から導き出すことができ、肯定的に答えられるかどうかを問う。
論文 参考訳(メタデータ) (2026-05-11T12:33:15Z) - Tokens-per-Parameter Coverage Is Critical for Robust LLM Scaling Law Extrapolation [45.56738584872585]
ニューラルスケーリング法則は、パラメータカウント$N$とトークンカウント$D$のパワーロー関数として、言語モデルの損失を近似する。
本稿では,コリニア設計がガウス・ニュートン最小二乗問題に固有の不条件を生じさせることを示す。
これを4つのスケーリング法則形式に対して証明し、十分に条件付き推定に十分必要な閉形式TPP多様性閾値を導出する。
論文 参考訳(メタデータ) (2026-05-08T23:00:17Z) - Sequential Minimal Optimization for $\varepsilon$-SVR with MAPE Loss and Sample-Dependent Box Constraints [0.0]
我々は、$varepsilon$-SVRciteVapnik 1995, Drucker 1997, Smola2004から生じる二次双対問題に対して、MAPE(Mean Absolute Percentage Error)を最小化するために、逐次最小最適化(SMO)アルゴリズムを導出した。
実装はオープンソースの textttpsvr R packageciteBenavidesHerrera2026Rpsvr で利用可能である。
論文 参考訳(メタデータ) (2026-05-02T13:51:46Z) - Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。
逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。
これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文 参考訳(メタデータ) (2025-02-09T22:14:45Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。