論文の概要: Cognitive Chunking for Soft Prompts: Accelerating Compressor Learning via Block-wise Causal Masking
- arxiv url: http://arxiv.org/abs/2602.13980v1
- Date: Sun, 15 Feb 2026 03:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.587451
- Title: Cognitive Chunking for Soft Prompts: Accelerating Compressor Learning via Block-wise Causal Masking
- Title(参考訳): ソフトプロンプのための認知的チャンキング:ブロックワイズ因果マスキングによる圧縮機学習の促進
- Authors: Guojie Liu, Yiqi Wang, Yanfeng Yang, Wenqi Fan, Songlei Jian, Jianfeng Zhang, Jie Yu,
- Abstract要約: 長期のコンテキストは、自己注意の計算コストがシークエンスの長さと2次的に増加するにつれて、推論遅延を増大させる。
既存のメソッドは通常、コンテキスト全体を無差別にメモリトークンの集合に圧縮する。
本稿では,メモリトークンの受容領域を逐次局所チャンクに制限する並列反復圧縮(PIC)を提案する。
- 参考スコア(独自算出の注目度): 28.492055407384495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Providing extensive context via prompting is vital for leveraging the capabilities of Large Language Models (LLMs). However, lengthy contexts significantly increase inference latency, as the computational cost of self-attention grows quadratically with sequence length. To mitigate this issue, context compression-particularly soft prompt compressio-has emerged as a widely studied solution, which converts long contexts into shorter memory embeddings via a trained compressor. Existing methods typically compress the entire context indiscriminately into a set of memory tokens, requiring the compressor to capture global dependencies and necessitating extensive pre-training data to learn effective patterns. Inspired by the chunking mechanism in human working memory and empirical observations of the spatial specialization of memory embeddings relative to original tokens, we propose Parallelized Iterative Compression (PIC). By simply modifying the Transformer's attention mask, PIC explicitly restricts the receptive field of memory tokens to sequential local chunks, thereby lowering the difficulty of compressor training. Experiments across multiple downstream tasks demonstrate that PIC consistently outperforms competitive baselines, with superiority being particularly pronounced in high compression scenarios (e.g., achieving relative improvements of 29.8\% in F1 score and 40.7\% in EM score on QA tasks at the $64\times$ compression ratio). Furthermore, PIC significantly expedites the training process. Specifically, when training the 16$\times$ compressor, it surpasses the peak performance of the competitive baseline while effectively reducing the training time by approximately 40\%.
- Abstract(参考訳): プロンプトによる広範なコンテキストの提供は、Large Language Models(LLMs)の機能を活用する上で不可欠である。
しかし、自己注意の計算コストは、シーケンス長の2倍に増加するため、長いコンテキストは推論遅延を著しく増加させる。
この問題を緩和するために、コンテキスト圧縮-特にソフトなプロンプト圧縮-hasが広く研究されているソリューションとして登場し、長いコンテキストを訓練された圧縮機を介してより短いメモリ埋め込みに変換する。
既存のメソッドは通常、コンテキスト全体を無差別にメモリトークンの集合に圧縮し、圧縮器がグローバルな依存関係をキャプチャし、効果的なパターンを学ぶために大規模な事前学習データを必要とする。
人間の作業記憶におけるチャンキング機構と、原トークンに対するメモリ埋め込みの空間的特殊化に関する経験的観察から着想を得て、並列化反復圧縮(PIC)を提案する。
単にTransformerのアテンションマスクを変更することで、PICはメモリトークンの受容フィールドをシーケンシャルな局所チャンクに明示的に制限し、圧縮機のトレーニングの難しさを低減させる。
複数のダウンストリームタスクにわたる実験では、PICは競争ベースラインを一貫して上回り、特に高い圧縮シナリオでは優位性が顕著である(例えば、F1の29.8\%、QAの40.7\%の相対的な改善を6.4\times$圧縮比で達成している)。
さらに、PICはトレーニングプロセスを大幅に高速化する。
具体的には、16$\times$圧縮機をトレーニングする際には、競争ベースラインのピーク性能を超え、トレーニング時間を約40%削減する。
関連論文リスト
- Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning [47.87361916374891]
本稿では,チャンクワイズ圧縮と選択的メモリリコールに基づく,効率的な長文推論のためのフレームワークを提案する。
このフレームワークは、長い入力をチャンクに分割し、各チャンクを学習圧縮機を用いて圧縮されたメモリ表現に符号化する。
ピークGPUメモリ使用量の最大2倍の削減と,MemAgent上での6倍の推論高速化を実現している。
論文 参考訳(メタデータ) (2026-02-09T08:33:11Z) - Simple Context Compression: Mean-Pooling and Multi-Ratio Training [12.049015994907629]
我々は、広く使われている圧縮トークンアーキテクチャを一貫して上回る軽量でシンプルな平均プール手法を開発した。
ドメイン内およびドメイン外QAデータセット、モデルファミリ、スケール、圧縮比にわたって、広範な実験を行います。
全体としては,複数の圧縮比のトレーニングを行う場合,比較的少ない低下率で,本手法は最強性能を達成する。
論文 参考訳(メタデータ) (2025-10-23T17:57:23Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - CompLLM: Compression for Long Context Q&A [47.90063873976842]
そこで本研究では,実用的デプロイメント用に設計されたソフト圧縮技術であるCompLLMを紹介する。
CompLLMはコンテキストを水平に処理する代わりにセグメントに分割し、それぞれを独立して圧縮する。
実験の結果,2倍圧縮速度でコンテクスト長のCompLLMでは,TTFT(Time To First Token)を最大4倍高速化し,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-09-23T16:49:43Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - MOOSComp: Improving Lightweight Long-Context Compressor via Mitigating Over-Smoothing and Incorporating Outlier Scores [5.893964327109089]
MOOSCompはトークン分類に基づく長文圧縮方式である。
タスク非依存圧縮において破棄されがちな希少だが重要なトークンを保存するために、外れ値を導入する。
本手法は,資源制約されたモバイルデバイス上での4倍圧縮率で3.3倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-04-23T15:02:53Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。