論文の概要: Not All Thoughts Need HBM: Semantics-Aware Memory Hierarchy for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.09490v1
- Date: Sun, 10 May 2026 11:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.276124
- Title: Not All Thoughts Need HBM: Semantics-Aware Memory Hierarchy for LLM Reasoning
- Title(参考訳): HBMは必要ではない - LLM推論のためのセマンティックなメモリ階層
- Authors: Aojie Yuan, Tianqi Shen, Dajun Zhang,
- Abstract要約: 推論は、KVキャッシュが乏しいGPUに存在する必要がある数千のチェーン・オブ・シントトークンを生成する。
低重要性トークンを永久に排除する支配的な反応は、推論にとって破滅的なものだ。
トークンを4層に分類するセマンティックス対応メモリ階層を導入する。
低重要トークンは破壊されるのではなく、CPUメモリに移動される。
- 参考スコア(独自算出の注目度): 4.014524824655106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning LLMs produce thousands of chain-of-thought tokens whose KV cache must reside in scarce GPU HBM. The dominant response -- permanently evicting low-importance tokens -- is catastrophic for reasoning: accuracy collapses to 0-2.5% when half the cache is removed. We ask a different question: must every token live in HBM, or can some live elsewhere? We introduce a semantics-aware memory hierarchy that sorts tokens into four tiers -- HBM, DDR, compressed, and evicted -- using cumulative attention scoring. Low-importance tokens are moved to CPU memory rather than destroyed; before each attention step they are prefetched back at full precision, contributing exactly the same terms as if they had never left the GPU. We formalize this as zero-approximation-error offloading and derive our central finding: accuracy depends solely on how many tokens are permanently discarded (the eviction ratio), not on how many remain in HBM. A controlled 3x3 grid over HBM and eviction ratios confirms this across three model scales (7B-32B) and four benchmarks. With only 3% eviction, the hierarchy retains 91% of full-cache accuracy on GSM8K and 71% on MATH-500 (n=200); at 14B scale it matches the uncompressed baseline (90% vs. 86%) while halving HBM occupancy. A head-to-head reproduction of R-KV -- the current SOTA eviction method -- on our setup achieves only 0-32% at comparable budgets. A system prototype with real GPU-CPU data movement shows that the price of this preservation is modest -- 5-7% transfer overhead -- and scaling analysis projects 2-48 GB HBM savings at production batch sizes.
- Abstract(参考訳): LLMは数千の連鎖トークンを生成し、KVキャッシュは少ないGPU HBMでなければならない。
低重要トークンを永久に排除する支配的な応答は、推論において破滅的である: キャッシュの半分が削除されると、精度は0-2.5%に崩壊する。
すべてのトークンはHBMで生きなければならないのか、どこかで生きられるのか?
我々は,トークンを,累積アテンションスコアを用いて,HBM,DDR,圧縮,消去の4階層に分類するセマンティクス対応メモリ階層を導入する。
低重要トークンは破壊されるのではなく、CPUメモリに移動される。各注意ステップの前には、完全な精度でプリフェッチされ、GPUを離れたことがないのとまったく同じ用語に寄与する。
私たちはこれをゼロ近似エラーオフロードとして形式化し、中心的な発見を導きます。正確性はHBMに残るトークンの数ではなく、永久に捨てられるトークンの数(放出比)にのみ依存します。
HBM上の制御された3x3グリッドと放出比は、3つのモデルスケール(7B-32B)と4つのベンチマークでこれを確認する。
GSM8Kでは91%、MATH-500では71%(n=200)であり、14Bスケールでは圧縮されていないベースライン(90%対86%)と一致し、HBM占有率は半減する。
現在のSOTA消去法であるR-KVの頭から頭への再現は、同等の予算で0~32%しか達成できない。
実際のGPU-CPUデータムーブメントを備えたシステムのプロトタイプは、この保存の価格が控えめな - 5~7%の転送オーバーヘッド -- であることを示し、スケーリング分析はプロダクションバッチサイズで2~48GBのHBM節約を計画している。
関連論文リスト
- Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture for Autonomous AI Systems [51.56484100374058]
LongMemEval-500では、ZenBrainは長いコンテキストのオラクルのバイナリ・ジャッジの精度を4.5pp以内と一致させる。
ZenBrainは7層の神経科学にインスパイアされたメモリアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-26T20:39:19Z) - Predictive Multi-Tier Memory Management for KV Cache in Large-Scale GPU Inference [0.0]
キーバリュー(KV)キャッシュメモリ管理は、大規模GPU推論サービスにおける主要なボトルネックである。
現在のシステムは3つの複合的非効率性に悩まされている。
3つの問題すべてに対処する統一システムを提案する。
論文 参考訳(メタデータ) (2026-04-19T21:34:09Z) - LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models [49.93891888238178]
ブロックワイド拡散言語モデル(DLM)は任意の順序で複数のトークンを生成し、自動回帰復号パイプラインに代わる有望な代替手段を提供する。
異なるクエリが異なるプレフィックス位置を選択する場合、KVインフレーション問題により、DLM上では裸のスパースアテンションが失敗する。
キャッシュされたプレフィックスアテンション結果を安定したトークンに再利用し、アクティブトークンのみにスパースアテンションを適用するLOSA(Locality-aware Sparse Attention)を提案する。
論文 参考訳(メタデータ) (2026-04-13T20:53:51Z) - HierarchicalKV: A GPU Hash Table with Cache Semantics for Continuous Online Embedding Storage [12.675175915331627]
従来のハッシュテーブルは、埋め込みテーブルがシングルGPUキャパシティを超えると、挿入キーを全て保存する。
本稿では,最初の汎用ハッシュテーブルライブラリであるHierarchicalKV(HKV)を紹介する。
HKVは4つのコアメカニズムを共同設計する。キー値選択、キャッシュベースの動的デュアル値スコア、トリプルバケット分離である。
論文 参考訳(メタデータ) (2026-03-17T21:59:59Z) - HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - In-context KV-Cache Eviction for LLMs via Attention-Gate [12.732519329131392]
KVキャッシュ技術は、大規模言語モデル(LLM)の推論の標準となっている。
本稿では,Attention-Gateと呼ばれる軽量モジュールをモデルに注入することで,KVキャッシュの動的な消去ポリシーを実現する。
提案手法は複数のシナリオにまたがって実験的に評価され,冗長トークンの有効排除は効率を向上するだけでなく,性能も向上することを示した。
論文 参考訳(メタデータ) (2024-10-15T05:01:19Z) - CHAI: Clustered Head Attention for Efficient LLM Inference [11.056313961175702]
クラスタ型ヘッドアテンション(CHAI)は、K,Vキャッシュを最大21.4%、推論時間遅延を最大1.73倍まで、微調整を必要とせずに削減することができる。
我々は,K,Vキャッシュを最大21.4%,推論時間遅延を最大1.73倍,微調整を必要とせずに,メモリ要求を最大で1.73倍削減できることを示した。
論文 参考訳(メタデータ) (2024-03-12T20:10:04Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。