論文の概要: Autoencoding-Free Context Compression for LLMs via Contextual Semantic Anchors
- arxiv url: http://arxiv.org/abs/2510.08907v2
- Date: Mon, 13 Oct 2025 08:26:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 13:29:55.710133
- Title: Autoencoding-Free Context Compression for LLMs via Contextual Semantic Anchors
- Title(参考訳): 文脈意味アンカーによるLLMの自動符号化自由コンテキスト圧縮
- Authors: Xin Liu, Runsong Zhao, Pengcheng Huang, Xinyu Liu, Junyi Xiao, Chunyang Xiao, Tong Xiao, Shengxiang Gao, Zhengtao Yu, Jingbo Zhu,
- Abstract要約: 現在の文脈圧縮法は、文脈に依存しない圧縮トークンを訓練し、文脈意味論を圧縮する自動符号化タスクに依存している。
本稿では,自動符号化タスクベース圧縮から,この圧縮機能を備えたアーキテクチャへ移行する新しい手法であるSemantic-Anchor Compression (SAC)を提案する。
SACは、様々な圧縮比で既存の文脈圧縮手法より一貫して優れている。
- 参考スコア(独自算出の注目度): 43.02557489472655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context compression presents a promising approach for accelerating large language model (LLM) inference by compressing long contexts into compact representations. Current context compression methods predominantly rely on autoencoding tasks to train context-agnostic compression tokens to compress contextual semantics. While autoencoding tasks enable compression tokens to acquire compression capabilities, compression via autoencoding tasks creates a fundamental mismatch: the models are optimized for reconstruction that diverge from actual downstream tasks, thereby weakening the features more beneficial for real-world usage. We propose Semantic-Anchor Compression (SAC), a novel method that shifts from autoencoding task based compression to an architecture that is equipped with this compression capability \textit{a priori}. Instead of training models to compress contexts through autoencoding tasks, SAC directly selects so-called anchor tokens from the original context and aggregates contextual information into their key-value (KV) representations. By deriving representations directly from the contextual tokens, SAC eliminates the need for autoencoding training. To ensure compression performance while directly leveraging anchor tokens, SAC incorporates two key designs: (1) anchor embeddings that enable the compressor to identify critical tokens, and (2) bidirectional attention modification that allows anchor tokens to capture information from the entire context. Experimental results demonstrate that SAC consistently outperforms existing context compression methods across various compression ratios. On out-of-distribution evaluation using MRQA, SAC achieves 1 EM improvement at 5x compression over strong baselines, with increasing advantages at higher compression ratios.
- Abstract(参考訳): コンテキスト圧縮は、長いコンテキストをコンパクトな表現に圧縮することで、大きな言語モデル(LLM)推論を加速するための有望なアプローチを示す。
現在の文脈圧縮法は、文脈に依存しない圧縮トークンを訓練して文脈意味論を圧縮する自動符号化タスクに大きく依存している。
オートエンコーディングタスクは圧縮トークンが圧縮能力を取得するのを可能にするが、オートエンコーディングタスクによる圧縮は基本的なミスマッチを生成する。
本稿では,SAC(Semantic-Anchor Compression)を提案する。SAC(Semantic-Anchor Compression)は,自動符号化タスクベース圧縮から,この圧縮機能を持つアーキテクチャへ移行する新しい手法である。
自動エンコーディングタスクを通じてコンテキストを圧縮するモデルをトレーニングする代わりに、SACは、元のコンテキストから直接いわゆるアンカートークンを選択し、コンテキスト情報をキー値(KV)表現に集約する。
SACは文脈トークンから直接表現を導出することにより、自動エンコードトレーニングの必要性を排除している。
アンカートークンを直接活用しながら圧縮性能を確保するため、SACは(1)圧縮機がクリティカルトークンを識別できるアンカー埋め込み、(2)アンカートークンがコンテキスト全体から情報を取得できる双方向アテンション修正という2つの重要な設計を取り入れている。
実験の結果、SACは様々な圧縮比で既存のコンテクスト圧縮手法を一貫して上回っていることがわかった。
MRQAを用いたアウト・オブ・ディストリビューション評価では、SACは強いベースラインよりも5倍圧縮で1 EM改善を達成し、高い圧縮比では利点が増大する。
関連論文リスト
- CompLLM: Compression for Long Context Q&A [47.90063873976842]
そこで本研究では,実用的デプロイメント用に設計されたソフト圧縮技術であるCompLLMを紹介する。
CompLLMはコンテキストを水平に処理する代わりにセグメントに分割し、それぞれを独立して圧縮する。
実験の結果,2倍圧縮速度でコンテクスト長のCompLLMでは,TTFT(Time To First Token)を最大4倍高速化し,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-09-23T16:49:43Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - GMSA: Enhancing Context Compression via Group Merging and Layer Semantic Alignment [18.256369876037883]
本稿では,エンコーダ・デコーダアーキテクチャに基づく文脈圧縮フレームワークであるGMSAを紹介する。
GMSAは入力シーケンスの長さと冗長な情報を減らす。
エンドツーエンドの推論で約2倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2025-05-18T03:21:30Z) - CODEPROMPTZIP: Code-specific Prompt Compression for Retrieval-Augmented Generation in Coding Tasks with LMs [6.936336826531964]
Retrieval-Augmented Generation (RAG)は、検索したコード例をプロンプトに組み込むことで、コーディングタスクを強化する。
既存の即時圧縮技術は自然言語に重点を置いており、コードの適切なソリューションが欠如している。
RAGに組み込む前にコード例を圧縮するフレームワークであるCodePromptZipを提案する。
論文 参考訳(メタデータ) (2025-02-19T23:15:23Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles [49.65811277223873]
Style-Compressは、より小さな言語モデルを適用して、新たなタスクでより大きなモデルのプロンプトを、追加のトレーニングなしで圧縮する軽量フレームワークである。
提案手法は,実効圧縮プロンプトを,スタイルのバリエーションやコンテキスト内学習を通じて,タスク固有の実演として反復的に生成し,選択する。
Style-Compressは、オリジナルのプロンプト再構成、テキスト要約、マルチホップQA、CoT推論の4つのタスクで2つのベースライン圧縮モデルを上回っている。
論文 参考訳(メタデータ) (2024-10-17T21:35:49Z) - Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。
API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-02T08:17:00Z) - LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。
我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。
提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:56Z) - Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。