論文の概要: Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio
- arxiv url: http://arxiv.org/abs/2603.25926v1
- Date: Thu, 26 Mar 2026 21:36:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.285352
- Title: Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio
- Title(参考訳): 半動的圧縮比を用いた密度認識型ソフトコンテキスト圧縮
- Authors: Yijiong Yu, Shuai Yuan, Jie Zheng, Huazheng Wang, Ji Pei,
- Abstract要約: 本稿では,Semi-Dynamic Context Compressionフレームワークを紹介する。
本手法では,固有情報密度に基づいて圧縮目標を予測する離散比セレクタを特徴とする。
私たちのフレームワークは、静的なベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 19.375601589555327
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Soft context compression reduces the computational workload of processing long contexts in LLMs by encoding long context into a smaller number of latent tokens. However, existing frameworks apply uniform compression ratios, failing to account for the extreme variance in natural language information density. While adopting a density-aware dynamic compression ratio seems intuitive, empirical investigations reveal that models struggle intrinsically with operations parameterized by input dependent, continuous structural hyperparameters. To resolve this pitfall, we introduce Semi-Dynamic Context Compression framework. Our approach features a Discrete Ratio Selector, which predicts a compression target based on intrinsic information density and quantizes it to a predefined set of discrete compression ratios. It is efficiently jointly trained with the compressor on synthetic data, with the summary lengths as a proxy to create labels for compression ratio prediction. Extensive evaluations confirm that our density-aware framework, utilizing mean pooling as the backbone, consistently outperforms static baselines, establishing a robust Pareto frontier for context compression techniques. Our code, data and model weights are available at https://github.com/yuyijiong/semi-dynamic-context-compress
- Abstract(参考訳): ソフトコンテクスト圧縮は、長いコンテクストを少数の潜在トークンにエンコードすることで、LLMにおける処理長コンテクストの計算負荷を低減する。
しかし、既存のフレームワークでは一様圧縮比が適用されており、自然言語情報密度の極端なばらつきを考慮できない。
密度を意識した動的圧縮比を採用することは直感的であるように見えるが、経験的調査により、モデルが入力依存型連続構造ハイパーパラメーターによってパラメータ化される操作と本質的に競合することが明らかになった。
この落とし穴を解決するために、Semi-Dynamic Context Compressionフレームワークを紹介します。
本手法では,固有情報密度に基づいて圧縮目標を予測し,あらかじめ定義された離散圧縮比の集合に量子化する離散比セレクタを特徴とする。
圧縮率予測のためのラベルを作成するためのプロキシとして、要約長を代用して、合成データ上で圧縮機と効率よく訓練する。
平均プーリングをバックボーンとして利用する我々の密度認識フレームワークは、静的ベースラインを一貫して上回り、コンテキスト圧縮技術のための堅牢なParetoフロンティアを確立する。
私たちのコード、データ、モデルの重み付けはhttps://github.com/yuyijiong/semi-dynamic-context-compressで利用可能です。
関連論文リスト
- Seq2Seq2Seq: Lossless Data Compression via Discrete Latent Transformers and Reinforcement Learning [3.2641459166493405]
本稿では,T5言語モデルアーキテクチャに適用した強化学習に基づく新しい圧縮手法を提案する。
このアプローチは、従来のベクトル表現ではなく、トークンのシーケンスへのデータの圧縮を可能にする。
言語モデル内の潜伏情報を活用することで、明示的なコンテンツ理解を必要とせず、効果的にデータを圧縮する。
論文 参考訳(メタデータ) (2026-02-12T16:30:55Z) - Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Context Compression via Explicit Information Transmission [25.078241611630585]
大規模言語モデル(LLM)による長文推論は、二次的な注意とキー値キャッシュの増加によってコストがかかる。
ソフト圧縮を新しいパラダイムに定式化する軽量フレームワークComprExITを提案する。
論文 参考訳(メタデータ) (2026-02-03T17:44:12Z) - Simple Context Compression: Mean-Pooling and Multi-Ratio Training [12.049015994907629]
我々は、広く使われている圧縮トークンアーキテクチャを一貫して上回る軽量でシンプルな平均プール手法を開発した。
ドメイン内およびドメイン外QAデータセット、モデルファミリ、スケール、圧縮比にわたって、広範な実験を行います。
全体としては,複数の圧縮比のトレーニングを行う場合,比較的少ない低下率で,本手法は最強性能を達成する。
論文 参考訳(メタデータ) (2025-10-23T17:57:23Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - AttnComp: Attention-Guided Adaptive Context Compression for Retrieval-Augmented Generation [27.480791258325066]
我々は適応的で効率的でコンテキスト対応の圧縮フレームワークであるAttnCompを紹介した。
AttnCompは最小限の文書を保持するためにトップP圧縮アルゴリズムを使用している。
圧縮に加えて、AttnCompは、検索したコンテンツの全体的な関連性を評価することで、応答の信頼性を推定する。
論文 参考訳(メタデータ) (2025-09-22T08:18:50Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - Hierarchical Semantic Compression for Consistent Image Semantic Restoration [62.97519327310638]
生成モデルから固有意味空間内で純粋に機能する新しい階層意味圧縮(HSC)フレームワークを提案する。
実験の結果,提案したHSCフレームワークは人間の視力に対する主観的品質と一貫性に関する最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2025-02-24T03:20:44Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。