論文の概要: Lag-Relative Sparse Attention In Long Context Training
- arxiv url: http://arxiv.org/abs/2506.11498v1
- Date: Fri, 13 Jun 2025 06:49:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.679584
- Title: Lag-Relative Sparse Attention In Long Context Training
- Title(参考訳): 長期学習におけるラグ相対的スパース注意
- Authors: Manlai Liang, Wanyi Huang, Mandi Liu, Huaijun Li, Jinlong Li,
- Abstract要約: 本稿では,LagKV圧縮法で固定されたLag-Relative Sparse Attention(LRSA)を長期学習後に提案する。
本手法はチャンク・バイ・チャンク・プリフィルを行い, 固定サイズのラグウィンドウにおいて, 最上位のキー値ペアを選択する。
- 参考スコア(独自算出の注目度): 8.365610885641276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have made significant strides in natural language processing and generation, yet their ability to handle long-context input remains constrained by the quadratic complexity of attention computation and linear-increasing key-value memory footprint. To reduce computational costs and memory, key-value cache compression techniques are commonly applied at inference time, but this often leads to severe performance degradation, as models are not trained to handle compressed context. Although there are more sophisticated compression methods, they are typically unsuitable for post-training because of their incompatibility with gradient-based optimization or high computation overhead. To fill this gap with no additional parameter and little computation overhead, we propose Lag-Relative Sparse Attention(LRSA) anchored by the LagKV compression method for long context post-training. Our method performs chunk-by-chunk prefilling, which selects the top K most relevant key-value pairs in a fixed-size lagging window, allowing the model to focus on salient historical context while maintaining efficiency. Experimental results show that our approach significantly enhances the robustness of the LLM with key-value compression and achieves better fine-tuned results in the question-answer tuning task.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理と生成において大きな進歩を遂げているが、注意計算の2次複雑さと線形化キー値メモリフットプリントによって、長文入力を処理する能力は依然として制限されている。
計算コストとメモリを削減するため、キー値キャッシュ圧縮技術は推論時に一般的に適用されるが、モデルが圧縮されたコンテキストを扱うように訓練されていないため、しばしば性能が著しく低下する。
より洗練された圧縮手法は存在するが、勾配に基づく最適化や高い計算オーバーヘッドと相容れないため、ポストトレーニングには適さない。
本稿では,LagKV圧縮法で固定されたLag-Relative Sparse Attention(LRSA)を提案する。
提案手法はチャンク・バイ・チャンク・プリフィルを行い, 固定サイズのラグウィンドウにおいて, 最上位のキー値ペアを選択することにより, 効率を保ちながら, 健全な歴史的文脈に焦点を合わせることができる。
実験の結果,提案手法はキー値圧縮によるLLMのロバスト性を大幅に向上し,質問応答チューニングタスクにおいてより精密な調整結果が得られることがわかった。
関連論文リスト
- FreqKV: Frequency Domain Key-Value Compression for Efficient Context Window Extension [20.360392907997117]
本稿では、新しい周波数領域鍵値(KV)圧縮技術であるFreqKVを提案する。
Freq KVはデコーダのみの大規模言語モデル(LLM)のための効率的なコンテキストウィンドウ拡張を可能にする
長い文脈言語モデリングおよび理解タスクの実験は,提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-05-01T14:53:12Z) - SparseAccelerate: Efficient Long-Context Inference for Mid-Range GPUs [0.0]
SparseAccelerateは動的スパースアテンション手法であり、入力特性に基づいてその疎度パターンを適応する。
実験結果から,SparseAccelerateは最大1.04倍のTTTF遅延を32Kトークンで達成した。
論文 参考訳(メタデータ) (2024-12-09T04:27:03Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - LanguaShrink: Reducing Token Overhead with Psycholinguistics [8.123272461141815]
LanguaShrinkは、大規模言語モデルの即時圧縮フレームワークである。
本質的な情報を保持しながら、即時長を短縮する。
既存のプロンプト圧縮手法と比較して、LanguaShrinkはエンドツーエンドのレイテンシを1.43倍改善している。
論文 参考訳(メタデータ) (2024-09-01T22:09:20Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。