論文の概要: UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression
- arxiv url: http://arxiv.org/abs/2509.15763v1
- Date: Fri, 19 Sep 2025 08:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.08444
- Title: UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression
- Title(参考訳): UniGist: 汎用およびハードウェア対応のシーケンスレベルのロングコンテキスト圧縮を目指して
- Authors: Chenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Tianqing Fang, Hongming Zhang, Haitao Mi, Dong Yu, Zhicheng Dou,
- Abstract要約: UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
- 参考スコア(独自算出の注目度): 86.33995240043936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly capable of handling long-context inputs, but the memory overhead of key-value (KV) cache remains a major bottleneck for general-purpose deployment. While various compression strategies have been explored, sequence-level compression, which drops the full KV caches for certain tokens, is particularly challenging as it can lead to the loss of important contextual information. To address this, we introduce UniGist, a sequence-level long-context compression framework that efficiently preserves context information by replacing raw tokens with special compression tokens (gists) in a fine-grained manner. We adopt a chunk-free training strategy and design an efficient kernel with a gist shift trick, enabling optimized GPU training. Our scheme also supports flexible inference by allowing the actual removal of compressed tokens, resulting in real-time memory savings. Experiments across multiple long-context tasks demonstrate that UniGist significantly improves compression quality, with especially strong performance in detail-recalling tasks and long-range dependency modeling.
- Abstract(参考訳): 大規模言語モデルは、長いコンテキスト入力を扱う能力がますます高まっているが、キーバリュー(KV)キャッシュのメモリオーバーヘッドは、汎用的なデプロイメントにおいて大きなボトルネックとなっている。
様々な圧縮戦略が検討されているが、特定のトークンに対して完全なKVキャッシュをドロップするシーケンスレベルの圧縮は、重要なコンテキスト情報を失う可能性があるため、特に困難である。
この問題を解決するために、UniGistというシーケンスレベルの長文圧縮フレームワークを導入し、生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
我々は、チャンクフリーのトレーニング戦略を採用し、ギストシフトトリックで効率的なカーネルを設計し、最適化されたGPUトレーニングを可能にします。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
複数のロングコンテキストタスクに対する実験により、UniGistは圧縮品質を著しく改善し、特にディテールリコールタスクや長距離依存性モデリングのパフォーマンスが向上した。
関連論文リスト
- Seq2Seq2Seq: Lossless Data Compression via Discrete Latent Transformers and Reinforcement Learning [3.2641459166493405]
本稿では,T5言語モデルアーキテクチャに適用した強化学習に基づく新しい圧縮手法を提案する。
このアプローチは、従来のベクトル表現ではなく、トークンのシーケンスへのデータの圧縮を可能にする。
言語モデル内の潜伏情報を活用することで、明示的なコンテンツ理解を必要とせず、効果的にデータを圧縮する。
論文 参考訳(メタデータ) (2026-02-12T16:30:55Z) - Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning [47.87361916374891]
本稿では,チャンクワイズ圧縮と選択的メモリリコールに基づく,効率的な長文推論のためのフレームワークを提案する。
このフレームワークは、長い入力をチャンクに分割し、各チャンクを学習圧縮機を用いて圧縮されたメモリ表現に符号化する。
ピークGPUメモリ使用量の最大2倍の削減と,MemAgent上での6倍の推論高速化を実現している。
論文 参考訳(メタデータ) (2026-02-09T08:33:11Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - CompLLM: Compression for Long Context Q&A [47.90063873976842]
そこで本研究では,実用的デプロイメント用に設計されたソフト圧縮技術であるCompLLMを紹介する。
CompLLMはコンテキストを水平に処理する代わりにセグメントに分割し、それぞれを独立して圧縮する。
実験の結果,2倍圧縮速度でコンテクスト長のCompLLMでは,TTFT(Time To First Token)を最大4倍高速化し,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-09-23T16:49:43Z) - CCF: A Context Compression Framework for Efficient Long-Sequence Language Modeling [52.05149789178508]
CCFは、効率的な長期コンテキストモデリングを可能にするように設計された、新しいコンテキスト圧縮フレームワークである。
CCFはセグメントワイドなセマンティックアグリゲーションとキー-値メモリエンコーディングを統合し、コンパクトな表現を形成する。
複数の長文言語モデリングベンチマークによる実験結果から,CCFは高い圧縮比下での競合パープレキシティを実現することが示された。
論文 参考訳(メタデータ) (2025-09-11T07:13:49Z) - KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - Lag-Relative Sparse Attention In Long Context Training [8.365610885641276]
本稿では,LagKV圧縮法で固定されたLag-Relative Sparse Attention(LRSA)を長期学習後に提案する。
本手法はチャンク・バイ・チャンク・プリフィルを行い, 固定サイズのラグウィンドウにおいて, 最上位のキー値ペアを選択する。
論文 参考訳(メタデータ) (2025-06-13T06:49:53Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [28.96662510838151]
セマンティックチャンクを基本圧縮単位として扱うことにより,KVキャッシュの圧縮を再現するChunkKVを提案する。
このアプローチは完全な言語構造と文脈整合性を保持し、攻撃的な圧縮の下でも本質的な意味が維持されることを保証する。
ChunkKVは、同じ圧縮比を維持しながら8.7%の精度で最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Compressing Lengthy Context With UltraGist [22.054232261437186]
長大な文脈の高品質な圧縮を特徴とするUltraGistという手法を提案する。
UltraGistは、幅広いコンテキスト長と圧縮比をサポートするために効果的に学習できるため、圧縮の柔軟性に寄与する。
これにより、トレーニングプロセスのサンプル効率が向上し、トレーニングデータの使用が最大になる。
論文 参考訳(メタデータ) (2024-05-26T17:23:56Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。