論文の概要: UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression
- arxiv url: http://arxiv.org/abs/2509.15763v1
- Date: Fri, 19 Sep 2025 08:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.08444
- Title: UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression
- Title(参考訳): UniGist: 汎用およびハードウェア対応のシーケンスレベルのロングコンテキスト圧縮を目指して
- Authors: Chenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Tianqing Fang, Hongming Zhang, Haitao Mi, Dong Yu, Zhicheng Dou,
- Abstract要約: UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
- 参考スコア(独自算出の注目度): 86.33995240043936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly capable of handling long-context inputs, but the memory overhead of key-value (KV) cache remains a major bottleneck for general-purpose deployment. While various compression strategies have been explored, sequence-level compression, which drops the full KV caches for certain tokens, is particularly challenging as it can lead to the loss of important contextual information. To address this, we introduce UniGist, a sequence-level long-context compression framework that efficiently preserves context information by replacing raw tokens with special compression tokens (gists) in a fine-grained manner. We adopt a chunk-free training strategy and design an efficient kernel with a gist shift trick, enabling optimized GPU training. Our scheme also supports flexible inference by allowing the actual removal of compressed tokens, resulting in real-time memory savings. Experiments across multiple long-context tasks demonstrate that UniGist significantly improves compression quality, with especially strong performance in detail-recalling tasks and long-range dependency modeling.
- Abstract(参考訳): 大規模言語モデルは、長いコンテキスト入力を扱う能力がますます高まっているが、キーバリュー(KV)キャッシュのメモリオーバーヘッドは、汎用的なデプロイメントにおいて大きなボトルネックとなっている。
様々な圧縮戦略が検討されているが、特定のトークンに対して完全なKVキャッシュをドロップするシーケンスレベルの圧縮は、重要なコンテキスト情報を失う可能性があるため、特に困難である。
この問題を解決するために、UniGistというシーケンスレベルの長文圧縮フレームワークを導入し、生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
我々は、チャンクフリーのトレーニング戦略を採用し、ギストシフトトリックで効率的なカーネルを設計し、最適化されたGPUトレーニングを可能にします。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
複数のロングコンテキストタスクに対する実験により、UniGistは圧縮品質を著しく改善し、特にディテールリコールタスクや長距離依存性モデリングのパフォーマンスが向上した。
関連論文リスト
- CCF: A Context Compression Framework for Efficient Long-Sequence Language Modeling [52.05149789178508]
CCFは、効率的な長期コンテキストモデリングを可能にするように設計された、新しいコンテキスト圧縮フレームワークである。
CCFはセグメントワイドなセマンティックアグリゲーションとキー-値メモリエンコーディングを統合し、コンパクトな表現を形成する。
複数の長文言語モデリングベンチマークによる実験結果から,CCFは高い圧縮比下での競合パープレキシティを実現することが示された。
論文 参考訳(メタデータ) (2025-09-11T07:13:49Z) - KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [28.96662510838151]
セマンティックチャンクを基本圧縮単位として扱うことにより,KVキャッシュの圧縮を再現するChunkKVを提案する。
このアプローチは完全な言語構造と文脈整合性を保持し、攻撃的な圧縮の下でも本質的な意味が維持されることを保証する。
ChunkKVは、同じ圧縮比を維持しながら8.7%の精度で最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Compressing Lengthy Context With UltraGist [22.054232261437186]
長大な文脈の高品質な圧縮を特徴とするUltraGistという手法を提案する。
UltraGistは、幅広いコンテキスト長と圧縮比をサポートするために効果的に学習できるため、圧縮の柔軟性に寄与する。
これにより、トレーニングプロセスのサンプル効率が向上し、トレーニングデータの使用が最大になる。
論文 参考訳(メタデータ) (2024-05-26T17:23:56Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。