論文の概要: LoLA: Low-Rank Linear Attention With Sparse Caching
- arxiv url: http://arxiv.org/abs/2505.23666v1
- Date: Thu, 29 May 2025 17:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.023612
- Title: LoLA: Low-Rank Linear Attention With Sparse Caching
- Title(参考訳): LoLA:スパースキャッシングによる低ランクリニアアテンション
- Authors: Luke McDermott, Robert W. Heath Jr., Rahul Parhi,
- Abstract要約: トランスフォーマーベースの大規模言語モデルは、長いシーケンスの推論において二次的な複雑さに悩まされる。
スパースキャッシュを用いた低ランク線形注意(LoLA: Low-rank Linear Attention)を提案する。
推論のみの戦略として、LoLAは最大8Kコンテキスト長のパスキー検索を可能にする。
- 参考スコア(独自算出の注目度): 36.03256813033104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based large language models suffer from quadratic complexity at inference on long sequences. Linear attention methods are efficient alternatives, however, they fail to provide an accurate approximation of softmax attention. By additionally incorporating sliding window attention into each linear attention head, this gap can be closed for short context-length tasks. Unfortunately, these approaches cannot recall important information from long contexts due to "memory collisions". In this paper , we propose LoLA: Low-rank Linear Attention with sparse caching. LoLA separately stores additional key-value pairs that would otherwise interfere with past associative memories. Moreover, LoLA further closes the gap between linear attention models and transformers by distributing past key-value pairs into three forms of memory: (i) recent pairs in a local sliding window; (ii) difficult-to-memorize pairs in a sparse, global cache; and (iii) generic pairs in the recurrent hidden state of linear attention. As an inference-only strategy, LoLA enables pass-key retrieval on up to 8K context lengths on needle-in-a-haystack tasks from RULER. It boosts the accuracy of the base subquadratic model from 0.6% to 97.4% at 4K context lengths, with a 4.6x smaller cache than that of Llama-3.1 8B. LoLA demonstrates strong performance on zero-shot commonsense reasoning tasks among 1B and 8B parameter subquadratic models. Finally, LoLA is an extremely lightweight approach: Nearly all of our results can be reproduced on a single consumer GPU.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデルは、長いシーケンスの推論において二次的な複雑さに悩まされる。
線形アテンション法は効率的な代替手段であるが,ソフトマックスアテンションの正確な近似は得られなかった。
さらに、各線形アテンションヘッドにスライディングウィンドウアテンションを組み込むことで、このギャップを短い文脈長のタスクで閉じることができる。
残念ながら、これらのアプローチは「メモリ衝突」のため、長いコンテキストから重要な情報を思い出すことはできない。
本稿では,疎キャッシュを用いたLoLA:低ランク線形注意(Low-rank Linear Attention)を提案する。
LoLAは別のキーと値のペアを格納し、それ以外は過去の連想記憶を妨害する。
さらに、LoLAは、過去のキー値対を3種類のメモリに分散することで、線形アテンションモデルとトランスフォーマーのギャップを埋める。
(i) 局所的なスライディングウィンドウにおける最近のペア
(二)疎大なグローバルキャッシュにおけるペアの記憶が難しいこと、及び
(iii)線形注意の繰り返し隠れ状態におけるジェネリックペア。
推論のみの戦略として、LOLAはRULERのニードル・イン・ア・ヘイスタックタスクで最大8Kコンテキスト長のパスキー検索を可能にする。
これにより、4Kコンテキスト長で0.6%から97.4%まで精度が向上し、Llama-3.1 8Bの4.6倍のキャッシュを持つ。
LoLAは、0ショットのコモンセンス推論タスクにおいて、1Bおよび8Bパラメータサブクワッドラティックモデルで強い性能を示す。
最後に、LoLAは非常に軽量なアプローチです。 ほぼすべての結果は、単一のコンシューマGPUで再現できます。
関連論文リスト
- Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression [22.038650467915176]
本研究では,異なる頭部と層に異なる注意配置を自動調整するMixture of Attention (MoA)を提案する。
MoAは様々な入力サイズに対応し、いくつかの注意点がより長いシーケンスに対応するように焦点を拡大し、他のヘッドは固定長のローカルコンテキストに一貫して集中することを示した。
論文 参考訳(メタデータ) (2024-06-21T06:58:37Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - CHAI: Clustered Head Attention for Efficient LLM Inference [11.056313961175702]
クラスタ型ヘッドアテンション(CHAI)は、K,Vキャッシュを最大21.4%、推論時間遅延を最大1.73倍まで、微調整を必要とせずに削減することができる。
我々は,K,Vキャッシュを最大21.4%,推論時間遅延を最大1.73倍,微調整を必要とせずに,メモリ要求を最大で1.73倍削減できることを示した。
論文 参考訳(メタデータ) (2024-03-12T20:10:04Z) - Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。