論文の概要: Context Cascade Compression: Exploring the Upper Limits of Text Compression
- arxiv url: http://arxiv.org/abs/2511.15244v1
- Date: Wed, 19 Nov 2025 09:02:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.709508
- Title: Context Cascade Compression: Exploring the Upper Limits of Text Compression
- Title(参考訳): コンテキストカスケード圧縮:テキスト圧縮の上限を探索する
- Authors: Fanfan Liu, Haibo Qiu,
- Abstract要約: テキスト圧縮の上限を探索するためにContext Cascade Compression C3を導入する。
圧縮率20倍では,DeepSeek-OCRの約60%と比較して98%の復号精度が得られた。
これは、文脈圧縮の領域において、C3圧縮は光学的文字圧縮よりも優れた性能と実現可能性を示すことを示している。
- 参考スコア(独自算出の注目度): 3.013064618174921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Million-level token inputs in long-context tasks pose significant computational and memory challenges for Large Language Models (LLMs). Recently, DeepSeek-OCR conducted research into the feasibility of Contexts Optical Compression and achieved preliminary results. Inspired by this, we introduce Context Cascade Compression C3 to explore the upper limits of text compression. Our method cascades two LLMs of different sizes to handle the compression and decoding tasks. Specifically, a small LLM, acting as the first stage, performs text compression by condensing a long context into a set of latent tokens (e.g., 32 or 64 in length), achieving a high ratio of text tokens to latent tokens. A large LLM, as the second stage, then executes the decoding task on this compressed context. Experiments show that at a 20x compression ratio (where the number of text tokens is 20 times the number of latent tokens), our model achieves 98% decoding accuracy, compared to approximately 60% for DeepSeek-OCR. When we further increase the compression ratio to 40x, the accuracy is maintained at around 93%. This indicates that in the domain of context compression, C3 Compression demonstrates superior performance and feasibility over optical character compression. C3 uses a simpler, pure-text pipeline that ignores factors like layout, color, and information loss from a visual encoder. This also suggests a potential upper bound for compression ratios in future work on optical character compression, OCR, and related fields. Codes and model weights are publicly accessible at https://github.com/liufanfanlff/C3-Context-Cascade-Compression
- Abstract(参考訳): 長文タスクにおける数百万レベルのトークン入力は、Large Language Models (LLM) において重要な計算とメモリの問題を引き起こす。
近年、DeepSeek-OCRはコンテキスト光圧縮の実現可能性の研究を行い、予備的な結果を得た。
そこで我々はContext Cascade Compression C3を導入し,テキスト圧縮の上限について検討する。
本手法は,圧縮処理と復号処理を行うために,異なるサイズの2つのLLMをカスケードする。
特に、第1段階として機能する小さなLCMは、長いコンテキストを潜在トークンのセット(例えば、32または64)に凝縮してテキスト圧縮を行い、潜在トークンに対するテキストトークンの比率を高くする。
次に、大きなLLMが第2段階として、圧縮されたコンテキスト上でデコードタスクを実行する。
実験の結果,20倍圧縮率(テキストトークンの数が潜在トークンの20倍)では,DeepSeek-OCRの約60%に比べて98%の復号精度が得られた。
さらに圧縮比を40倍にすると、約93%の精度で精度が維持される。
これは、文脈圧縮の領域において、C3圧縮は光学的文字圧縮よりも優れた性能と実現可能性を示すことを示している。
C3は、レイアウト、色、およびビジュアルエンコーダからの情報損失などの要素を無視した、シンプルで純粋なテキストパイプラインを使用する。
これはまた、将来の光学的文字圧縮、OCR、および関連分野における圧縮比の潜在的上限も示唆している。
codes and model weights are public access at https://github.com/liufanfanlff/C3-Context-Cascade-Compression
関連論文リスト
- Glyph: Scaling Context Windows via Visual-Text Compression [91.20717058018745]
Glyphは、長いテキストを画像にレンダリングし、視覚言語モデルで処理するフレームワークである。
提案手法は,従来の長文モデルに匹敵する精度を維持しつつ,3~4倍のトークン圧縮を実現する。
極端な圧縮では、128KテキストのVLMが1Mレベルのテキストタスクにスケールできる。
論文 参考訳(メタデータ) (2025-10-20T17:58:56Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - Autoencoding-Free Context Compression for LLMs via Contextual Semantic Anchors [43.02557489472655]
現在の文脈圧縮法は、文脈に依存しない圧縮トークンを訓練し、文脈意味論を圧縮する自動符号化タスクに依存している。
本稿では,自動符号化タスクベース圧縮から,この圧縮機能を備えたアーキテクチャへ移行する新しい手法であるSemantic-Anchor Compression (SAC)を提案する。
SACは、様々な圧縮比で既存の文脈圧縮手法より一貫して優れている。
論文 参考訳(メタデータ) (2025-10-10T01:42:14Z) - CompLLM: Compression for Long Context Q&A [47.90063873976842]
そこで本研究では,実用的デプロイメント用に設計されたソフト圧縮技術であるCompLLMを紹介する。
CompLLMはコンテキストを水平に処理する代わりにセグメントに分割し、それぞれを独立して圧縮する。
実験の結果,2倍圧縮速度でコンテクスト長のCompLLMでは,TTFT(Time To First Token)を最大4倍高速化し,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-09-23T16:49:43Z) - R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。
CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。
ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文 参考訳(メタデータ) (2025-05-22T16:06:59Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。