論文の概要: The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference
- arxiv url: http://arxiv.org/abs/2604.15409v1
- Date: Thu, 16 Apr 2026 15:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.592795
- Title: The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference
- Title(参考訳): 等価性のイラシオン:KVキャッシュ自己回帰推論における系統的FP16分散
- Authors: Ranjith Chodavarapu, Lei Xu,
- Abstract要約: KVキャッシングは自己回帰変換器推論におけるユビキタス最適化である。
FP16 KVキャッシュ推論は基本的に再計算と等価ではないことを示す。
- 参考スコア(独自算出の注目度): 2.954681536906518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: KV caching is a ubiquitous optimization in autoregressive transformer inference, long presumed to be numerically equivalent to cache-free computation. This assumption fails under standard FP16 precision: cache-ON and cache-OFF execution paths employ different floating-point accumulation orderings which, due to FP16 non-associativity, produce a deterministic divergence in decoded token sequences. Across three open-weight models (LLaMA-2-7B, Mistral-7B-v0.3, Gemma-2-2B) evaluated on GSM8K, we observe a 100\% token divergence rate across all sampling strategies, including greedy decoding, which rules out sampling randomness as a cause, and also with cache-ON yielding higher accuracy in 8 of 9 conditions, where the accuracy difference serves as an indicator that the divergence direction is systematic rather than random. Controlled FP32 falsification reduces divergence by eight orders of magnitude, eliminates token flips, and drops the flip rate to exactly 0.0\%, confirming FP16 non-associativity as the sole causal driver. Layer-wise drift profiling reveals architecturally predictable propagation patterns: models using Grouped-Query Attention exhibit sharp divergence at the first layer, while Gemma's larger head dimension and sliding window attention produce uniform accumulation across all layers. Finally, activation patching of the entire residual stream fails to recover the cache-free trajectory, localizing the causal variable to the stateful KV cache. These findings establish that FP16 KV cache inference is fundamentally non-equivalent to recomputation and provide a mechanistic framework for understanding numerical instability in modern LLM inference systems.
- Abstract(参考訳): KVキャッシュは自己回帰変換器推論におけるユビキタスな最適化であり、長い間キャッシュレス計算と数値的に等価であると推定されていた。
キャッシュ-ONとキャッシュ-OFF実行パスは異なる浮動小数点累積順序を使い、これはFP16非連想性のため、復号化トークン列における決定論的分岐を生成する。
GSM8Kで評価した3つのオープンウェイトモデル (LLaMA-2-7B, Mistral-7B-v0.3, Gemma-2-2B) 全体にわたって, 原因としてランダム性をサンプリングするgreedy decodingを含む全サンプリング戦略の100倍のトークン分散率を観測し, 9条件中8条件においてキャッシュONが精度が高く, 精度差がランダム性よりも体系的であることを示す。
制御されたFP32のファルシフィケーションは8桁のばらつきを減らし、トークンのフリップをなくし、フリップレートを正確に0.0 %に下げ、FP16が唯一の因果ドライバーであることを確認した。
階層的なドリフトプロファイリングは、アーキテクチャ的に予測可能な伝搬パターンを明らかにしている。 Grouped-Query Attention を用いたモデルは、第一層で鋭いばらつきを示し、Gemmaのより大きな頭次元とスライディングウィンドウアテンションは、すべての層に一様に蓄積する。
最後に、残ストリーム全体のアクティベートパッチはキャッシュフリーなトラジェクトリの回復に失敗し、因果変数をステートフルなKVキャッシュにローカライズする。
これらの結果から、FP16 KVキャッシュ推論は再計算には基本的に等価ではないことが判明し、現代のLLM推論システムにおける数値不安定性を理解するための力学的枠組みを提供する。
関連論文リスト
- Learning from Emptiness: De-biasing Listwise Rerankers with Content-Agnostic Probability Calibration [76.08899010904652]
CapCalは、ランキング決定から位置バイアスを機械的に分離する、トレーニング不要のフレームワークである。
シングルパス効率を保ちながら、トレーニング不要の手法で優れた性能を発揮する。
論文 参考訳(メタデータ) (2026-04-11T10:47:22Z) - Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers [5.534626267734823]
我々は,MoE層における不確かさをモデル化するためのベイズ的構造化手法であるVMoER(Sariformal Mixture-of-Experts Routing)を導入する。
VMoERは、一般的に決定論的ルーティングネットワークによって行われるエキスパート選択ステージへの推論を限定する。
試験された基礎モデル全体で、VMoERはノイズ下でのルーティングを38%改善し、配布外AUROCを12%向上させた。
論文 参考訳(メタデータ) (2026-03-10T10:07:53Z) - Silent Inconsistency in Data-Parallel Full Fine-Tuning: Diagnosing Worker-Level Optimization Misalignment [27.352639822596146]
クロスワーカーの損失と勾配のばらつきは、従来の監視信号では見えない。
本稿では,標準パイプラインで容易に利用できるトレーニング信号を用いて,作業者レベルの一貫性を定量化する,モデルに依存しない診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T04:42:30Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - Environment-Aware Indoor LoRaWAN Path Loss: Parametric Regression Comparisons, Shadow Fading, and Calibrated Fade Margins [3.776919981139063]
内部のLoRaWAN伝播は、構造的および時間的変化の文脈因子によって形成される。
リークセーフなクロスバリデーションを用いて評価した,環境に配慮した統計的に規律のある経路損失フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T20:14:48Z) - Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference [31.2331188304598]
評価バッチサイズ、GPUカウント、GPUバージョンなどのシステム構成の変更は、生成されたレスポンスに大きな違いをもたらす可能性がある。
この変数の根本原因は、限定的な数値精度で浮動小数点算術の非連想性に遡る。
そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文 参考訳(メタデータ) (2025-06-11T08:23:53Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。