論文の概要: SONIC: Segmented Optimized Nexus for Information Compression in Key-Value Caching
- arxiv url: http://arxiv.org/abs/2601.21927v1
- Date: Thu, 29 Jan 2026 16:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.980786
- Title: SONIC: Segmented Optimized Nexus for Information Compression in Key-Value Caching
- Title(参考訳): SONIC:キーバリューキャッシングにおける情報圧縮のためのセグメンテーション最適化Nexus
- Authors: Hong Chen, Xiang Liu, Bo Wang, Yuxuan Fan, Yuanlin Chu, Zongluo Li, Xiaowen Chu, Xuming Hu,
- Abstract要約: 既存のキャッシュ圧縮手法では、マルチターン対話の構造的特性を考慮できない。
歴史的セグメントをコンパクトかつ意味的にリッチなtextbfNexusトークンに圧縮する学習ベースのフレームワークである textbfSONIC を提案する。
- 参考スコア(独自算出の注目度): 41.97462066654616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The linear growth of Key-Value (KV) cache remains a bottleneck for multi-turn LLM deployment. Existing KV cache compression methods often fail to account for the structural properties of multi-turn dialogues, relying on heuristic eviction that risks losing critical context. We propose \textbf{SONIC}, a learning-based framework that compresses historical segments into compact and semantically rich \textbf{Nexus} tokens. By integrating dynamic budget training, SONIC allows flexible adaptation to varying memory constraints without retraining. Experiments show that at compression ratios of 80\% and 50\%, SONIC consistently outperforms baselines such as H2O and StreamingLLM on four diverse multi-turn benchmarks. Specifically, on the widely used MTBench101 benchmark, SONIC achieves an average score improvement of 35.55\% over state-of-the-art baselines, validating its effectiveness in sustaining coherent multi-turn dialogues. Furthermore, SONIC enhances deployment efficiency, accelerating the overall inference process by 50.1\% compared to full-context generation.
- Abstract(参考訳): キーバリュー(KV)キャッシュの線形成長は、マルチターンLDMデプロイメントのボトルネックとして残っている。
既存のKVキャッシュ圧縮手法は、重要なコンテキストを失うリスクを負うヒューリスティックな信念に依存するため、マルチターンダイアログの構造的特性を考慮できないことが多い。
歴史的セグメントをコンパクトで意味的にリッチな \textbf{Nexus} トークンに圧縮する学習ベースのフレームワークである \textbf{SONIC} を提案する。
動的予算トレーニングを統合することで、SONICはリトレーニングなしで様々なメモリ制約への柔軟な適応を可能にする。
実験によると、圧縮比80\%と50\%では、SONICはH2OやStreamingLLMといったベースラインを4つの異なるマルチターンベンチマークで一貫して上回っている。
具体的には、広く使用されているMTBench101ベンチマークにおいて、SONICは最先端のベースラインに対して平均35.55\%のスコア改善を実現し、コヒーレントなマルチターン対話の維持の有効性を検証した。
さらに、SONICはデプロイメント効率を高め、全コンテキスト生成と比較して、全体の推論プロセスを50.1\%加速する。
関連論文リスト
- SWAN: Sparse Winnowed Attention for Reduced Inference Memory via Decompression-Free KV-Cache Compression [7.603859408568262]
大きな言語モデル(LLM)は、キーバリュー(KV)キャッシュの巨大なメモリフットプリントのため、自動回帰推論において重大なボトルネックに直面します。
SWANは、このオーバーヘッドをなくす、新しい、微調整不要なフレームワークである。
提案手法はオフライン行列を用いてKV-cacheを回転させプルークする。
論文 参考訳(メタデータ) (2025-11-24T09:41:24Z) - CCF: A Context Compression Framework for Efficient Long-Sequence Language Modeling [52.05149789178508]
CCFは、効率的な長期コンテキストモデリングを可能にするように設計された、新しいコンテキスト圧縮フレームワークである。
CCFはセグメントワイドなセマンティックアグリゲーションとキー-値メモリエンコーディングを統合し、コンパクトな表現を形成する。
複数の長文言語モデリングベンチマークによる実験結果から,CCFは高い圧縮比下での競合パープレキシティを実現することが示された。
論文 参考訳(メタデータ) (2025-09-11T07:13:49Z) - Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。
RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。
また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文 参考訳(メタデータ) (2025-06-01T23:49:14Z) - FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management [48.904743679691414]
FlowKVはKVキャッシュ管理のための新しいマルチターン分離機構である。
蓄積された圧縮KVキャッシュを過去のターンから保存する。
古い文脈の再圧縮を防ぎ、破滅的な忘れを和らげる。
論文 参考訳(メタデータ) (2025-05-21T10:20:46Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。