論文の概要: Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention
- arxiv url: http://arxiv.org/abs/2604.20920v1
- Date: Wed, 22 Apr 2026 04:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.093775
- Title: Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention
- Title(参考訳): Forget, then recall: Learnable Compression and Selective Openfolding via Gist Sparse Attention
- Authors: Yuzhen Mao, Michael Y. Li, Emily B. Fox,
- Abstract要約: 大きな言語モデルを長い文脈にスケールすることは、注意の2次計算コストのために困難である。
まず、まず文脈をgistトークンに圧縮し、次に最も関連するgistを選択する。
これにより、コンパクトなグローバル表現と、微細なリーブされた証拠へのターゲットアクセスを組み合わせた単純な粗大な機構が得られる。
- 参考スコア(独自算出の注目度): 7.694795562178033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling large language models to long contexts is challenging due to the quadratic computational cost of full attention. Mitigation approaches include KV-cache selection or compression techniques. We instead provide an effective and end-to-end learnable bridge between the two without requiring architecture modification. In particular, our key insight is that interleaved gist compression tokens -- which provide a learnable summary of sets of raw tokens -- can serve as routing signals for sparse attention. Building on this, we introduce selective unfolding via GSA, which first compresses the context into gist tokens, then selects the most relevant gists, and subsequently restores the corresponding raw chunks for detailed attention. This yields a simple coarse-to-fine mechanism that combines compact global representations with targeted access to fine-grained evidence. We further incorporate this process directly into training in an end-to-end fashion, avoiding the need for external retrieval modules. In addition, we extend the framework hierarchically via recursive gist-of-gist construction, enabling multi-resolution context access with logarithmic per-step decoding complexity. Empirical results on LongBench and RAG benchmarks demonstrate that our method consistently outperforms other compression baselines as well as inference-time sparse attention methods across compression ratios from $8\times$ to $32\times$. The code is available at: https://github.com/yuzhenmao/gist-sparse-attention/
- Abstract(参考訳): 大きな言語モデルを長い文脈にスケールすることは、注意の2次計算コストのために困難である。
緩和アプローチには、KV-cache選択または圧縮技術がある。
その代わりに、アーキテクチャの変更を必要とせずに、効果的でエンドツーエンドの学習可能なブリッジを提供しています。
特に重要な洞察は、インターリーブされたgist圧縮トークン -- 生トークンの集合の学習可能な要約を提供する -- は、疎注意のためのルーティング信号として機能する、ということです。
その上で,まずコンテキストをgistトークンに圧縮し,最も関連性の高いgistを選択し,対応する生のチャンクを詳細な注意のために復元する。
これにより、コンパクトな大域的表現と、きめ細かい証拠へのターゲットアクセスを組み合わせた、単純な粗くきめ細かな機構が得られる。
さらに、このプロセスをエンドツーエンドでトレーニングに直接組み込むことで、外部検索モジュールの必要性を回避することができる。
さらに、再帰的なgist-of-gist構成により階層的にフレームワークを拡張し、対数単位のデコーディングの複雑さを伴うマルチレゾリューションコンテキストアクセスを可能にする。
LongBench と RAG のベンチマークによる実験結果から,提案手法は他の圧縮ベースラインよりも常に優れており,圧縮比が 8\times$ から 32\times$ の推論時間スパースアテンション手法よりも優れていることが示された。
コードは、https://github.com/yuzhenmao/gist-sparse-attention/で入手できる。
関連論文リスト
- Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。
インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。
AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文 参考訳(メタデータ) (2026-02-24T18:57:33Z) - Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning [47.87361916374891]
本稿では,チャンクワイズ圧縮と選択的メモリリコールに基づく,効率的な長文推論のためのフレームワークを提案する。
このフレームワークは、長い入力をチャンクに分割し、各チャンクを学習圧縮機を用いて圧縮されたメモリ表現に符号化する。
ピークGPUメモリ使用量の最大2倍の削減と,MemAgent上での6倍の推論高速化を実現している。
論文 参考訳(メタデータ) (2026-02-09T08:33:11Z) - CompLLM: Compression for Long Context Q&A [47.90063873976842]
そこで本研究では,実用的デプロイメント用に設計されたソフト圧縮技術であるCompLLMを紹介する。
CompLLMはコンテキストを水平に処理する代わりにセグメントに分割し、それぞれを独立して圧縮する。
実験の結果,2倍圧縮速度でコンテクスト長のCompLLMでは,TTFT(Time To First Token)を最大4倍高速化し,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-09-23T16:49:43Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - Sentinel: Attention Probing of Proxy Models for LLM Context Compression with an Understanding Perspective [29.50363211934763]
Retrieval-augmented Generation (RAG) は、外部コンテキストを持つ大きな言語モデルを強化するが、検索されたパスは、しばしば長い、騒々しい、あるいは入力限界を超える。
本研究では,文脈フィルタリングを注目に基づく理解タスクとして再構成する軽量な文レベル圧縮フレームワークであるSentinelを提案する。
論文 参考訳(メタデータ) (2025-05-29T09:24:12Z) - R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。
CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。
ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文 参考訳(メタデータ) (2025-05-22T16:06:59Z) - Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。
API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-02T08:17:00Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。