論文の概要: KVNAND: Efficient On-Device Large Language Model Inference Using DRAM-Free In-Flash Computing
- arxiv url: http://arxiv.org/abs/2512.03608v1
- Date: Wed, 03 Dec 2025 09:41:03 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:09:20.693507
- Title: KVNAND: Efficient On-Device Large Language Model Inference Using DRAM-Free In-Flash Computing
- Title(参考訳): KVNAND: DRAMフリーインフラッシュコンピューティングを用いたデバイス上での高効率大規模言語モデル推論
- Authors: Lishuo Deng, Shaojie Xu, Jinwu Chen, Changwei Yan, Jiajie Wang, Zhe Jiang, Weiwei Shan,
- Abstract要約: エッジデバイス上の大規模言語モデル(LLM)は、強力なプライバシと低コストでパーソナライズされたエージェントを可能にする。
数十から数十億のパラメータを持つ単一バッチ自己回帰推論は、非常に低い算術強度に悩まされる。
近年のIn-flash Computing (IFC) ソリューションでは,デコードフェーズにおける重み関連線形計算とフラッシュとの併用により,このボトルネックを緩和している。
モデル重みとKVキャッシュを完全に計算可能な3D NANDフラッシュに格納する最初のDRAMフリーIFCベースのアーキテクチャであるKVNANDを提案する。
- 参考スコア(独自算出の注目度): 6.806071092599333
- License:
- Abstract: Deploying large language models (LLMs) on edge devices enables personalized agents with strong privacy and low cost. However, with tens to hundreds of billions of parameters, single-batch autoregressive inference suffers from extremely low arithmetic intensity, creating severe weight-loading and bandwidth pressures on resource-constrained platforms. Recent in-flash computing (IFC) solutions alleviate this bottleneck by co-locating weight-related linear computations in the decode phase with flash, yet still rely on DRAM for the key-value (KV) cache. As context length grows, the KV cache can exceed model weights in size, imposing prohibitive DRAM cost and capacity requirements. Attempts to offload KV cache to flash suffer from severe performance penalties. We propose KVNAND, the first DRAM-free, IFC-based architecture that stores both model weights and KV cache entirely in compute-enabled 3D NAND flash. KVNAND addresses the fundamental performance challenges of flash under intensive KV cache access by leveraging IFC for all memory-bound operations to reduce data transfer overhead, introducing head-group parallelism to boost throughput, and employing page-level KV cache mapping to align token access patterns with flash organization. In addition, we propose a design space exploration framework that evaluates discrete and compact KVNAND variants to balance weight and KV placement, automatically identifying the optimal design trade-off. These techniques mitigate latency, energy, and reliability concerns, turning flash into a practical medium for long-context KV storage. Evaluations on MHA 7B and GQA 70B LLMs show that KVNAND achieves 1.98\(\times\)/1.94\(\times\)/2.05\(\times\) geomean speedup at 128/1K/10K-token contexts compared to DRAM-equipped IFC designs and addresses out-of-memory failures at 100K context length.
- Abstract(参考訳): エッジデバイスに大規模言語モデル(LLM)をデプロイすることで、強力なプライバシと低コストでパーソナライズされたエージェントが可能になる。
しかし、数十億から数十億のパラメータを持つ単一バッチ自己回帰推論は、非常に低い演算強度に悩まされ、リソース制約されたプラットフォームに重み付けと帯域幅の圧力が生じる。
近年のIn-flash Computing (IFC) ソリューションは、デコードフェーズにおける重み関連線形計算をフラッシュと組み合わせることで、このボトルネックを軽減するが、キー値(KV)キャッシュのDRAMに依存している。
コンテキスト長が大きくなるにつれて、KVキャッシュはモデルの重みを超えることができ、DRAMのコストとキャパシティの要求が禁止される。
KVキャッシュをフラッシュにオフロードしようとする試みは、厳しいパフォーマンス上のペナルティに悩まされる。
モデル重みとKVキャッシュを完全に計算可能な3D NANDフラッシュに格納する最初のDRAMフリーIFCベースのアーキテクチャであるKVNANDを提案する。
KVNANDは、すべてのメモリバウンド操作にIFCを活用してデータ転送オーバーヘッドを低減し、スループットを向上させるためにヘッドグループ並列性を導入し、フラッシュ組織とトークンアクセスパターンを整合させるページレベルのKVキャッシュマッピングを採用することで、集中的なKVキャッシュアクセスにおける基本的なパフォーマンス上の課題に対処する。
さらに,離散的かつコンパクトなKVNAND変種を重みとKV配置のバランスをとるために評価し,最適設計トレードオフを自動的に識別する設計空間探索フレームワークを提案する。
これらの技術は、レイテンシ、エネルギ、信頼性の懸念を緩和し、フラッシュを長期KVストレージの実用的な媒体にする。
MHA 7B と GQA 70B LLM の評価によると、KVNAND は 1.98\(\times\)/1.94\(\times\)/2.05\(\times\) ジオメアン・スピードアップを 18/1K/10K のコンテキストで達成し、DRAM 搭載 IFC の設計と比較し、100K のコンテキスト長でメモリ外障害に対処する。
関連論文リスト
- OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - AdaptCache: KV Cache Native Storage Hierarchy for Low-Delay and High-Quality Language Model Serving [24.3795571741572]
大規模言語モデル(LLM)アプリケーションは、チャット履歴やドキュメントなど、以前処理されたコンテキストをしばしば再利用する。
既存のLLMサービスシステムは、処理されたコンテキストのKVキャッシュを格納し、新しい要求がコンテキストを再利用するときに対応するKVキャッシュをロードすることで、そのような冗長な計算に対処する。
論文 参考訳(メタデータ) (2025-08-28T00:46:51Z) - TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization [21.229296254354878]
生成型大規模言語モデル(LLM)におけるキーバリューキャッシュは、かなりのメモリオーバーヘッドをもたらす。
既存の作業は、KVキャッシュをオフロードまたは圧縮することで、この負担を軽減する。
本稿では,量子化とオフロードをシームレスに統合するハイブリッド圧縮手法であるTailorKVを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:00:04Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference [10.115950753431528]
大規模言語モデル(LLM)は、生成AIにおいて重要なマイルストーンである。
オフラインLLM推論におけるコンテキスト長とバッチサイズの増加は、キー値(KV)キャッシュのメモリ要求をエスカレートする。
いくつかのコスト効率の良いソリューションは、ホストメモリを利用するか、オフラインの推論シナリオのストレージコストを削減するよう最適化されている。
InstInferは、最も性能クリティカルな計算(つまり、復号フェーズにおける注意)とデータ(すなわちKVキャッシュ)を計算ストレージドライブ(CSD)にオフロードする。
InstInferがロングシーケンス推論のためのスループットを改善
論文 参考訳(メタデータ) (2024-09-08T06:06:44Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。