論文の概要: LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing
- arxiv url: http://arxiv.org/abs/2603.08453v1
- Date: Mon, 09 Mar 2026 14:50:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.212314
- Title: LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing
- Title(参考訳): LycheeCluster: 構造を考慮したチャンキングと階層的KVインデクシングによる効率的なロングコンテキスト推論
- Authors: Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang,
- Abstract要約: 効率的なKVキャッシュ管理のための新しい手法であるLycheeClusterを提案する。
LycheeClusterは境界対応のチャンキングを通じて局所的な意味的コヒーレンスを保持し、三角形の不等式に根ざした階層的指数を構成する。
実験により、LycheeClusterはモデル性能の無視可能な劣化を伴う、最大3.6倍のエンドツーエンドの推論スピードアップを達成することが示された。
- 参考スコア(独自算出の注目度): 29.284917403504352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic complexity of the attention mechanism and the substantial memory footprint of the Key-Value (KV) cache present severe computational and memory challenges for Large Language Models (LLMs) processing long contexts. Existing retrieval-based methods often compromise semantic integrity through fixed-size chunking and suffer from inefficient linear scanning. In this paper, we propose LycheeCluster, a novel method for efficient KV cache management. LycheeCluster preserves local semantic coherence via boundary-aware chunking and constructs a recursive hierarchical index rooted in the triangle inequality. This design transforms cache retrieval from a linear scan into a theoretically bounded, logarithmic-time pruning process, while a lazy update strategy supports efficient streaming generation. Experiments demonstrate that LycheeCluster achieves up to a 3.6x end-to-end inference speedup with negligible degradation in model performance, outperforming state-of-the-art KV cache management methods (e.g., Quest, ClusterKV). We will release our code and kernels after publication.
- Abstract(参考訳): 注意機構の二次的複雑さとキーバリュー(KV)キャッシュのメモリフットプリントは、長期のコンテキストを処理する大規模言語モデル(LLM)において、厳しい計算とメモリの問題をもたらす。
既存の検索に基づく手法は、しばしば固定サイズのチャンキングによって意味的整合性を妥協し、非効率な線形走査に悩まされる。
本稿では,効率的なKVキャッシュ管理手法であるLycheeClusterを提案する。
LycheeClusterは境界対応のチャンキングを通じて局所的な意味的コヒーレンスを保持し、三角形の不等式に根付いた再帰的階層的指数を構築する。
この設計は、キャッシュの検索を線形スキャンから理論的に拘束された対数時間プルーニングプロセスに変換し、遅延更新戦略は効率的なストリーミング生成をサポートする。
実験により、LycheeClusterはモデル性能の無視可能な劣化で最大3.6倍のエンドツーエンドの推論スピードアップを実現し、最先端のKVキャッシュ管理方法(例えばQuest、ClusterKV)より優れていることが示されている。
公開後、コードとカーネルをリリースします。
関連論文リスト
- KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - Efficient Long-Context LLM Inference via KV Cache Clustering [25.995798911985847]
既存のアプローチは、将来の世代に必要な潜在的に重要な情報を破棄するか、高い計算オーバーヘッドのために限られた効率向上を提供するかのいずれかである。
我々はオンラインKVキャッシュクラスタリングのためのシンプルだが効果的なフレームワークであるChelseaを紹介した。
Chelseaは、同等のモデル性能を維持しながら、最大80%のKVキャッシュメモリ使用率の削減を実現している。
論文 参考訳(メタデータ) (2025-06-13T02:36:15Z) - TreeKV: Smooth Key-Value Cache Compression with Tree Structures [19.06842704338332]
TreeKVは、スムーズなキャッシュ圧縮のためにツリー構造を利用するトレーニング不要の手法である。
PG19とOpenWebText2の言語モデリングタスクのベースラインモデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-09T06:00:27Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。