論文の概要: Adaptive Layer Selection for Layer-Wise Token Pruning in LLM Inference
- arxiv url: http://arxiv.org/abs/2601.07667v1
- Date: Mon, 12 Jan 2026 15:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.538218
- Title: Adaptive Layer Selection for Layer-Wise Token Pruning in LLM Inference
- Title(参考訳): LLM推論における層幅トリミングの適応層選択
- Authors: Rei Taniguchi, Yuyang Dong, Makoto Onizuka, Chuan Xiao,
- Abstract要約: KVキャッシュ削減のための選択層を適応的に選択する学習自由手法を提案する。
ASLは、復号速度とKVキャッシュの削減を維持しつつ、最先端の層単位のトークン選択法を精度良く向上させる。
- 参考スコア(独自算出の注目度): 8.085742236947235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the prevalence of large language models (LLMs), key-value (KV) cache reduction for LLM inference has received remarkable attention. Among numerous works that have been proposed in recent years, layer-wise token pruning approaches, which select a subset of tokens at particular layers to retain in KV cache and prune others, are one of the most popular schemes. They primarily adopt a set of pre-defined layers, at which tokens are selected. Such design is inflexible in the sense that the accuracy significantly varies across tasks and deteriorates in harder tasks such as KV retrieval. In this paper, we propose ASL, a training-free method that adaptively chooses the selection layer for KV cache reduction, exploiting the variance of token ranks ordered by attention score. The proposed method balances the performance across different tasks while meeting the user-specified KV budget requirement. ASL operates during the prefilling stage and can be jointly used with existing KV cache reduction methods such as SnapKV to optimize the decoding stage. By evaluations on the InfiniteBench, RULER, and NIAH benchmarks, we show that equipped with one-shot token selection, where tokens are selected at a layer and propagated to deeper layers, ASL outperforms state-of-the-art layer-wise token selection methods in accuracy while maintaining decoding speed and KV cache reduction.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現により,LLM推論におけるキー値(KV)キャッシュの削減が注目されている。
近年提案されている多くの研究のうち、KVキャッシュに保持する特定の層にトークンのサブセットを選択する層ワイドトークンプルーニングアプローチは、最も一般的なスキームの1つである。
主に事前に定義されたレイヤのセットを採用し、トークンが選択される。
このような設計は、精度がタスクによって大きく異なり、KV検索のような難しいタスクでは劣化するという意味では、柔軟性がない。
本稿では,KVキャッシュ削減のための選択層を適応的に選択する学習自由度手法であるASLを提案する。
提案手法は,ユーザ指定のKV予算要件を満たしながら,異なるタスク間で性能のバランスをとる。
ASLはプリフィル段階で動作し、SnapKVのような既存のKVキャッシュ削減手法と併用してデコードステージを最適化することができる。
InfiniteBench, RULER, NIAHベンチマークによる評価により, トークンを層に選択し, より深い層に伝播するワンショットトークン選択を施し, ASLは復号速度とKVキャッシュの削減を維持しつつ, 最先端の層単位のトークン選択方法より精度が高いことを示す。
関連論文リスト
- Distilling to Hybrid Attention Models via KL-Guided Layer Selection [66.06591032073744]
本稿では,テキストデータに対する少量のトレーニングから得られた重要度スコアを用いた,簡易かつ効率的な層選択法について述べる。
この手法は, 固定比に基づいて線形注意を均一に解き出す手法を含む, 従来の層選択手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2025-12-23T18:12:22Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - TokenSelect: Efficient Long-Context Inference and Length Extrapolation for LLMs via Dynamic Token-Level KV Cache Selection [23.12497380673902]
Dynamic Token-Level KV Cache Selection (TokenSelect) は、高速で正確な長文推論のためのトレーニング不要な手法である。
TokenSelectの総合的な評価では、注意計算のスピードアップが最大23.84ドル、エンドツーエンドのレイテンシのアクセラレーションが最大2.28ドルである。
論文 参考訳(メタデータ) (2024-11-05T07:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。