Fugu-MT 論文翻訳(概要): DynaKV: Enabling Accurate and Efficient Long-Sequence LLM Decoding on Smartphones

論文の概要: DynaKV: Enabling Accurate and Efficient Long-Sequence LLM Decoding on Smartphones

arxiv url: http://arxiv.org/abs/2511.07427v1
Date: Mon, 20 Oct 2025 08:56:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-16 06:38:31.046446
Title: DynaKV: Enabling Accurate and Efficient Long-Sequence LLM Decoding on Smartphones
Title（参考訳）: DynaKV:スマートフォン上での高精度かつ効率的なLLMデコーディングを実現する
Authors: Tuowei Wang, Minxing Huang, Fengzu Li, Ligeng Chen, Jinrui Zhang, Ju Ren,
Abstract要約: 大規模言語モデル(LLM)は、効率的で効果的な長シーケンスデコードをサポートすることがますます期待されている。 DRAM容量が限られているため、スマートフォン上でのLLM復号化はキー値キャッシュ(KVCache)によって制限される。我々はDynaKVを提案する。DynaKVはスマートフォン上での長時間デコードにおける精度と効率を両立させる最初の適応KVキャッシュ管理手法である。
参考スコア（独自算出の注目度）: 10.813495376006427
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As the demand for human-like reasoning, multi-turn dialogues, and long-form responses grows, large language models (LLMs) are increasingly expected to support efficient and effective long-sequence decoding. However, due to limited DRAM capacity, long-seuqence LLM decoding on smartphones is constrained by the key-value cache (KVCache), whose memory footprint increases linearly with sequence length. Retrieval-based methods mitigate DRAM pressure by offloading KVCache to flash and retrieving query-relevant entries through cluster-based indexing. Unfortunately, as decoding progresses, KVCache distribution shifts render static or local cluster updates progressively misaligned, excluding essential entries or fetching redundant ones. These issues are further exacerbated by smartphone-specific limitations in bandwidth, IOPS, and memory capacity. We propose DynaKV, the first adaptive KVCache management approach that jointly addresses accuracy and efficiency for long-sequence decoding on smartphones. DynaKV integrates three key techniques: (1) Migration-Free Cluster Adaptation, which adaptively splits clusters during retrieval without incurring additional transfers; (2) Continuity-Centric Flash Management, which co-locates correlated entries and clusters and employs a dual-head layout for efficient updates; and (3) Memory-Efficient Cache Design, which virtualizes cache space across DRAM and flash and extends replacement policies to align with cluster-level access patterns. Evaluations demonstrate that DynaKV improves retrieval accuracy and reduces end-to-end latency compared to state-of-the-art solutions, achieving average gains of $1.38\times$ in accuracy and $1.47\times$ speedups. Furthermore, the insights of DynaKV naturally extend to other long-context workloads and multi-tier memory hierarchies, underscoring its broader applicability.
Abstract（参考訳）: ヒューマンライクな推論,マルチターン対話,ロングフォーム応答の需要が増大するにつれて,大規模言語モデル(LLM)はより効率的かつ効果的なロングシーケンスデコーディングをサポートすることが期待されている。しかし、DRAM容量の制限により、スマートフォン上でのLLM復号化はキー値キャッシュ(KVCache)によって制限され、メモリフットプリントはシーケンス長とともに線形に増加する。検索ベースのメソッドは、クラスタベースのインデックスによるクエリ関連エントリのフラッシュと検索にKVCacheをオフロードすることで、DRAMのプレッシャーを軽減する。残念なことに、デコードが進むにつれて、KVCacheディストリビューションは静的またはローカルクラスタの更新を徐々にミスアライメントし、必須のエントリを除外したり、冗長なものを取り出す。これらの問題は、帯域幅、IOPS、メモリ容量のスマートフォン固有の制限によってさらに悪化している。我々はDynaKVを提案する。DynaKVはスマートフォン上での長時間デコードにおける精度と効率を両立させる最初の適応KVキャッシュ管理手法である。 DynaKVは,(1)追加転送を発生させることなく検索中にクラスタを適応的に分割するマイグレーションフリークラスタ適応,(2)関連エントリとクラスタを同時に配置し,効率的な更新のためにデュアルヘッドレイアウトを使用するContinuity-Centric Flash Management,(3)DRAMとフラッシュにまたがるキャッシュスペースを仮想化し,クラスタレベルのアクセスパターンに合わせて代替ポリシを拡張するメモリ効率のよいキャッシュ設計,の3つの主要なテクニックを統合している。評価の結果、DynaKVは検索精度を改善し、最先端のソリューションと比較してエンドツーエンドのレイテンシを低減し、平均的な1.38\times$精度と1.47\times$スピードアップを実現している。さらに、DynaKVの洞察は、他の長期コンテキストのワークロードや多層メモリ階層にまで自然に拡張され、適用可能性の幅を広げている。

関連論文リスト

Kelle: Co-design KV Caching and eDRAM for Efficient LLM Serving in Edge Computing [9.984481065465028]
エッジデバイス上の大規模言語モデル(LLM)は、レイテンシの低減、リアルタイム処理の改善、プライバシの向上に不可欠である。エッジデバイスにLLMを実装することは、特にキーバリューキャッシュの管理において、課題となる。エッジデバイスにおけるLLMのプライマリストレージとしてeDRAMを提案する。
論文参考訳（メタデータ） (2025-10-16T07:12:08Z)
AdaptCache: KV Cache Native Storage Hierarchy for Low-Delay and High-Quality Language Model Serving [24.3795571741572]
大規模言語モデル(LLM)アプリケーションは、チャット履歴やドキュメントなど、以前処理されたコンテキストをしばしば再利用する。既存のLLMサービスシステムは、処理されたコンテキストのKVキャッシュを格納し、新しい要求がコンテキストを再利用するときに対応するKVキャッシュをロードすることで、そのような冗長な計算に対処する。
論文参考訳（メタデータ） (2025-08-28T00:46:51Z)
Accelerating LLM Inference via Dynamic KV Cache Placement in Heterogeneous Memory System [20.652641518700346]
大規模言語モデル(LLM)推論は、メモリ帯域幅によってますます制限される。現代のAIハードウェアは、高速オフパッケージDRAMと高速帯域メモリ(HBM)を統合している。本研究は,キャパシティ制約下での集積帯域利用を最大化するために,そのようなシステムにまたがる動的KVキャッシュ配置について検討する。
論文参考訳（メタデータ） (2025-08-17T19:07:08Z)
Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文参考訳（メタデータ） (2025-05-21T17:32:10Z)
ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [15.76582272387931]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。 ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文参考訳（メタデータ） (2025-03-13T03:36:03Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。