論文の概要: Mask Tokens as Prophet: Fine-Grained Cache Eviction for Efficient dLLM Inference
- arxiv url: http://arxiv.org/abs/2510.09309v1
- Date: Fri, 10 Oct 2025 12:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.890732
- Title: Mask Tokens as Prophet: Fine-Grained Cache Eviction for Efficient dLLM Inference
- Title(参考訳): 預言者としてのマスクトークン:効率的なdLLM推論のための細粒キャッシュ推定
- Authors: Jianuo Huang, Yaojie Zhang, Yicun Yang, Benhao Huang, Biqing Qi, Dongrui Liu, Linfeng Zhang,
- Abstract要約: 拡散大言語モデル(dLLMs)は、支配的な自己回帰モデル(ARMs)に代わる有望な選択肢を提供する
既存のキャッシュ消去戦略はARM向けに設計されており、dLLMのユニークな特性を無視しているため、不満足なパフォーマンスにつながる。
トレーニング不要なキャッシュ消去フレームワークであるMaskKVを紹介した。
- 参考スコア(独自算出の注目度): 27.2461395361407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (dLLMs) present a promising alternative to dominant autoregressive models (ARMs) by the ability of parallel decoding at the expense of substantial computation and memory costs. Specifically, the cache mechanism for bidirectional attention in dLLMs demands large memory footprint, restricting their ability to handle long contexts under resource-limited settings. Existing cache eviction strategies are designed for ARMs and ignore the unique characteristics of dLLMs, thus leading to unsatisfactory performance. To address these challenges, we introduce MaskKV, a training-free cache eviction framework tailored to dLLMs, focusing on the effect of mask tokens in dLLMs. MaskKV is built on two key innovations: (1) a mask-query guided scoring mechanism that leverages attention weights to identify and evict less critical prompt tokens for each head; (2) an adaptive cache budgeting strategy that improves efficiency by reducing allocation in intermediate layers and concentrating resources on prompt-preferring heads. On LLaDA with MaskKV, compressing the KV cache to only 256 pairs (less than 5% of tokens) retains 94% of the full-cache performance on LongBench and achieves up to 31x acceleration at 32k prompt length. The code is publicly available at: https://github.com/jianuo-huang/MaskKV
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、計算とメモリコストを犠牲にして並列復号化能力によって、支配的な自己回帰モデル(ARM)に代わる有望な選択肢を提供する。
具体的には、dLLMにおける双方向の注意のためのキャッシュ機構は、リソース制限された設定下での長いコンテキストの処理能力を制限し、大きなメモリフットプリントを必要とする。
既存のキャッシュ消去戦略はARM向けに設計されており、dLLMのユニークな特性を無視しているため、不満足なパフォーマンスにつながる。
これらの課題に対処するために,dLLM に適したトレーニングフリーキャッシュ消去フレームワークである MaskKV を紹介し,dLLM におけるマスクトークンの効果に着目した。
MaskKV は,(1) 注意重みを生かして各頭部にあまり重要でないプロンプトを識別・排除するマスククエリ誘導スコアリング機構,(2) 中間層へのアロケーションを低減し,プロンプト優先ヘッドに資源を集中させることにより効率を向上する適応型キャッシュ予算化戦略,の2つの主要な革新の上に構築されている。
MaskKVのLLaDAでは、KVキャッシュを256ペア(トークンの5%未満)に圧縮するだけで、LongBenchのフルキャッシュ性能の94%を保持し、32kのプロンプト長で最大31倍の高速化を達成する。
コードは、https://github.com/jianuo-huang/MaskKVで公開されている。
関連論文リスト
- Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [15.76582272387931]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。
ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文 参考訳(メタデータ) (2025-03-13T03:36:03Z) - MPCache: MPC-Friendly KV Cache Eviction for Efficient Private Large Language Model Inference [5.1206021159434805]
MPCacheは、長いシーケンスの履歴トークンが下流のデコードに異なる影響を与える可能性があるという観察に基づいて構築されている。
MPCacheは、異なるLLM生成タスク間で、先進的なKVキャッシュ消去ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-01-12T13:18:04Z) - FlashMask: Efficient and Rich Mask Extension of FlashAttention [22.810595298076866]
FlashMaskはFlashAttentionの拡張であり、アテンションマスクのカラム単位のスパース表現を導入している。
この新しい表現を採用することで、FlashMaskは長いコンテキストシーケンスのモデリングに適した線形メモリ複雑性$O(N)$を達成する。
SFT, LoRA, DPO, RMなどのLLMの微調整およびアライメント訓練におけるFlashMaskの性能を評価する。
論文 参考訳(メタデータ) (2024-10-02T09:17:26Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。