論文の概要: StructKV: Preserving the Structural Skeleton for Scalable Long-Context Inference
- arxiv url: http://arxiv.org/abs/2604.06746v1
- Date: Wed, 08 Apr 2026 07:10:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.384792
- Title: StructKV: Preserving the Structural Skeleton for Scalable Long-Context Inference
- Title(参考訳): StructKV: スケーラブルなロングコンテキスト推論のための構造骨格を保存する
- Authors: Zhirui Chen, Peiyang Liu, Ling Shao,
- Abstract要約: 構造対応のKVキャッシュ圧縮フレームワークであるStructKVを提案する。
まず、Global In-Degree Centralityは、ネットワーク奥行きの注意パターンを集約し、グローバルな情報ハブを特定する。
第二に、Dynamic Pivot Detectionは情報理論のメトリクスを使って、圧縮のための最適な層を適応的に見つける。
- 参考スコア(独自算出の注目度): 38.75965915663233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) scale to support context windows exceeding one million tokens, the linear growth of Key-Value (KV) cache imposes severe memory capacity and bandwidth bottlenecks, constraining the efficiency of long-context inference. Existing compression approaches typically prioritize tokens based on local saliency metrics to decouple prefill computation from decoding memory. However, these methods often rely on local saliency snapshots at a specific layer, thereby systematically discarding tokens that act as global information hubs across the network depth but appear temporarily dormant at the specific layer selected for pruning. To address this limitation, we propose StructKV, a structure-aware KV cache compression framework that introduces three core innovations: First, Global In-Degree Centrality aggregates attention patterns across the network depth to identify global information hubs. Second, Dynamic Pivot Detection utilizes information-theoretic metrics to adaptively locate the optimal layer for compression. Finally, Structural Propagation and Decoupling separates the computational budget from the memory storage budget. Experimental results on the LongBench and RULER benchmarks demonstrate that StructKV effectively preserves long-range dependencies and retrieval robustness.
- Abstract(参考訳): 大きな言語モデル(LLM)が100万トークンを超えるコンテキストウィンドウをサポートするためにスケールするため、キーバリュー(KV)キャッシュの線形成長はメモリ容量と帯域幅のボトルネックを伴い、長文推論の効率を制限します。
既存の圧縮アプローチは、通常、メモリのデコードからプリフィル計算を分離するために、ローカルなサリエンシメトリクスに基づいてトークンを優先順位付けする。
しかしながら、これらの手法は特定のレイヤのローカルなサリエンシスナップショットに依存することが多く、これにより、ネットワークの深さを越えてグローバルな情報ハブとして機能するトークンを体系的に破棄するが、プルーニング用に選択された特定のレイヤで一時的に休息状態に見える。
この制限に対処するため,構造を意識したKVキャッシュ圧縮フレームワークであるStructKVを提案する。
第二に、Dynamic Pivot Detectionは情報理論のメトリクスを使って、圧縮のための最適な層を適応的に見つける。
最後に、Structure Propagation and Decouplingは、計算予算とメモリストレージ予算を分離する。
LongBench と RULER ベンチマークの実験結果から、StructKV は長距離依存と検索堅牢性を効果的に維持することを示した。
関連論文リスト
- Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - Re-Densification Meets Cross-Scale Propagation: Real-Time Neural Compression of LiDAR Point Clouds [83.39320394656855]
LiDARポイントクラウドは、様々なアプリケーションに基本的だが、高精度スキャンは、かなりのストレージと送信オーバーヘッドを発生させる。
既存の手法では、非順序の点を階層的なオクツリーやボクセル構造に変換して、密度から疎い予測符号化を行うのが一般的である。
筆者らのフレームワークは2つの軽量モジュールから構成されている。まず、Geometry Re-Densification Moduleがエンコードされたスパース幾何を再認識し、より密なスケールで特徴を抽出し、予測符号化のための特徴を再分離する。
論文 参考訳(メタデータ) (2025-08-28T06:36:10Z) - Structured Token Retention and Computational Memory Paths in Large Language Models [0.0]
本稿では,文脈的重要性に基づいてトークンの永続化を動的に調整する確率的選択フレームワークを提案する。
階層的なメモリ割り当てによって拡張され、トークン埋め込みの構造化された再配置によって保持効率を向上する。
STRとCMPのオープンソースモデルへの統合は、構造化メモリ保持手法の適応性を示している。
論文 参考訳(メタデータ) (2025-02-05T11:59:22Z) - TreeKV: Smooth Key-Value Cache Compression with Tree Structures [19.06842704338332]
TreeKVは、スムーズなキャッシュ圧縮のためにツリー構造を利用するトレーニング不要の手法である。
PG19とOpenWebText2の言語モデリングタスクのベースラインモデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-09T06:00:27Z) - Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。
Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-01-24T03:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。