論文の概要: Context Compression via Explicit Information Transmission
- arxiv url: http://arxiv.org/abs/2602.03784v1
- Date: Tue, 03 Feb 2026 17:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.613
- Title: Context Compression via Explicit Information Transmission
- Title(参考訳): 明示的情報伝達による文脈圧縮
- Authors: Jiangnan Ye, Hanqi Yan, Zhenyi Shen, Heng Chang, Ye Mao, Yulan He,
- Abstract要約: 大規模言語モデル(LLM)による長文推論は、二次的な注意とキー値キャッシュの増加によってコストがかかる。
ソフト圧縮を新しいパラダイムに定式化する軽量フレームワークComprExITを提案する。
- 参考スコア(独自算出の注目度): 25.078241611630585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context inference with Large Language Models (LLMs) is costly due to quadratic attention and growing key-value caches, motivating context compression. In this work, we study soft context compression, where a long context is condensed into a small set of continuous representations. Existing methods typically re-purpose the LLM itself as a trainable compressor, relying on layer-by-layer self-attention to iteratively aggregate information. We argue that this paradigm suffers from two structural limitations: (i) progressive representation overwriting across layers (ii) uncoordinated allocation of compression capacity across tokens. We propose ComprExIT (Context Compression via Explicit Information Transmission), a lightweight framework that formulates soft compression into a new paradigm: explicit information transmission over frozen LLM hidden states. This decouples compression from the model's internal self-attention dynamics. ComprExIT performs (i) depth-wise transmission to selectively transmit multi-layer information into token anchors, mitigating progressive overwriting, and (ii) width-wise transmission to aggregate anchors into a small number of slots via a globally optimized transmission plan, ensuring coordinated allocation of information. Across six question-answering benchmarks, ComprExIT consistently outperforms state-of-the-art context compression methods while introducing only ~1% additional parameters, demonstrating that explicit and coordinated information transmission enables more effective and robust long-context compression.
- Abstract(参考訳): 大きな言語モデル(LLM)による長文推論は、二次的な注意とキー値キャッシュの増加、コンテキスト圧縮の動機付けによってコストがかかる。
本研究では,連続表現の小さな集合に長いコンテキストを凝縮するソフトコンテキスト圧縮について検討する。
既存の方法では、LLM自体をトレーニング可能な圧縮機として再利用し、レイヤー・バイ・レイヤの自己アテンションに頼って情報を反復的に集約する。
このパラダイムには2つの構造的制限があります。
一 層にまたがる進歩的な表象上書き
(ii)トークン間で圧縮容量を非協調的に割り当てること。
我々は,ソフト圧縮を新しいパラダイムに定式化する軽量なフレームワークであるComprExIT(Context Compression via Explicit Information Transmission)を提案する。
これにより、モデルの内部的な自己注意ダイナミクスからの圧縮が切り離される。
ComprExIT の実行
一 多層情報をトークンアンカーに選択的に送信し、進行的な上書きを緩和する深度送信
二 グローバルに最適化された送信計画により、アンカーを少数のスロットに集約するための幅ワイド送信を行い、情報の調整を確実にする。
ComprExITは6つの質問応答ベンチマークで、最先端のコンテキスト圧縮手法を一貫して上回り、1%以上の追加パラメータを導入し、明示的で協調的な情報伝達によりより効果的で堅牢な長コンテキスト圧縮を実現することを示した。
関連論文リスト
- CompLLM: Compression for Long Context Q&A [47.90063873976842]
そこで本研究では,実用的デプロイメント用に設計されたソフト圧縮技術であるCompLLMを紹介する。
CompLLMはコンテキストを水平に処理する代わりにセグメントに分割し、それぞれを独立して圧縮する。
実験の結果,2倍圧縮速度でコンテクスト長のCompLLMでは,TTFT(Time To First Token)を最大4倍高速化し,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-09-23T16:49:43Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - Re-Densification Meets Cross-Scale Propagation: Real-Time Neural Compression of LiDAR Point Clouds [83.39320394656855]
LiDARポイントクラウドは、様々なアプリケーションに基本的だが、高精度スキャンは、かなりのストレージと送信オーバーヘッドを発生させる。
既存の手法では、非順序の点を階層的なオクツリーやボクセル構造に変換して、密度から疎い予測符号化を行うのが一般的である。
筆者らのフレームワークは2つの軽量モジュールから構成されている。まず、Geometry Re-Densification Moduleがエンコードされたスパース幾何を再認識し、より密なスケールで特徴を抽出し、予測符号化のための特徴を再分離する。
論文 参考訳(メタデータ) (2025-08-28T06:36:10Z) - DAC: A Dynamic Attention-aware Approach for Task-Agnostic Prompt Compression [63.83422894663496]
タスク非依存型プロンプト圧縮(DAC)のための動的注意認識手法を提案する。
このアプローチは、エントロピー情報とアテンション情報を効果的に統合し、圧縮中のエントロピーシフトを動的に検知し、きめ細かいプロンプト圧縮を実現する。
LongBench、GSM8K、BBHを含む様々な領域にわたる大規模な実験は、DACが一貫して堅牢で実質的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2025-07-16T06:16:06Z) - DAST: Context-Aware Compression in LLMs via Dynamic Allocation of Soft Tokens [20.044306399439265]
LLM(Large Language Models)は、長いコンテキスト入力を扱う際に、計算の非効率性と冗長な処理に直面する。
我々は,LLMの文脈関連性に関する本質的な理解を活用して圧縮を誘導する簡易かつ効果的な手法であるDAST(Dynamic Allocation of Soft Tokens)を提案する。
複数のベンチマークでの実験結果から、DASTが最先端の手法を超越していることが示されている。
論文 参考訳(メタデータ) (2025-02-17T06:55:13Z) - LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。
我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。
提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:56Z) - Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。