論文の概要: LoLA: Low-Rank Linear Attention With Sparse Caching
- arxiv url: http://arxiv.org/abs/2505.23666v2
- Date: Tue, 30 Sep 2025 16:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 19:34:21.391111
- Title: LoLA: Low-Rank Linear Attention With Sparse Caching
- Title(参考訳): LoLA:スパースキャッシングによる低ランクリニアアテンション
- Authors: Luke McDermott, Robert W. Heath Jr., Rahul Parhi,
- Abstract要約: 本稿では,リフレッシュなリコールを促進するリニアアテンションのための学習自由化であるLoLAを提案する。
パスキー検索タスクでは、LoLAはベースモデルの精度を0.6%から97.4%に改善している。
LoLAは、ゼロショットコモンセンス推論タスクにおいて、他の1Bおよび8Bパラメータのサブクワッドラティックモデルよりも優れている。
- 参考スコア(独自算出の注目度): 33.39181779121562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The per-token cost of transformer inference scales with context length, preventing its application to lifelong in-context learning. Linear attention is an efficient alternative that maintains a constant memory footprint, even on infinite context lengths. While this is a potential candidate for lifelong learning, it falls short in memory capacity. In this paper, we propose LoLA, a training-free augmentation to linear attention that boosts associative recall. LoLA distributes past key-value pairs from context into three memory systems: (i) recent pairs in a local sliding window cache; (ii) difficult-to-memorize pairs in a sparse, global cache; and (iii) generic pairs in the recurrent hidden state of linear attention. We show through ablations that our self-recall error metric is crucial to efficiently manage long-term associative memories. On pass-key retrieval tasks, LoLA improves the base model's performance from 0.6% to 97.4% accuracy. This is achieved with a 4.6x smaller cache than Llama-3.1 8B on 4K context length. LoLA also outperforms other 1B and 8B parameter subquadratic models on zero-shot commonsense reasoning tasks.
- Abstract(参考訳): トランスフォーマー推論のトーケンコストは文脈長とともにスケールし、生涯にわたるコンテキスト内学習への応用を妨げている。
線形注意(Linear attention)は、無限のコンテキスト長であっても、メモリフットプリントを一定に保つ効率的な代替手段である。
これは生涯学習の潜在的な候補であるが、メモリ容量が不足している。
本稿では,リフレッシュなリコールを促進するリニアアテンションのための学習自由化であるLoLAを提案する。
LoLAは過去のキーと値のペアをコンテキストから3つのメモリシステムに分散する。
(i)局所スライディングウィンドウキャッシュにおける最近のペア
(二)疎大なグローバルキャッシュにおけるペアの記憶が難しいこと、及び
(iii)線形注意の繰り返し隠れ状態におけるジェネリックペア。
我々は、長期的連想記憶を効率的に管理するために、自己リコールエラーメトリクスが不可欠であることを示す。
パスキー検索タスクでは、LoLAはベースモデルの精度を0.6%から97.4%に改善している。
これは、4Kコンテキスト長のLlama-3.1 8Bより4.6倍小さいキャッシュで実現できる。
LoLAは、ゼロショットコモンセンス推論タスクにおいて、他の1Bおよび8Bパラメータのサブクワッドラティックモデルよりも優れている。
関連論文リスト
- LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。
LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文 参考訳(メタデータ) (2025-07-14T19:09:57Z) - RAT: Bridging RNN Efficiency and Attention Accuracy in Language Modeling [17.437929000395112]
再発機構と注意機構の間にラットという中間設計を導入する。
入力をチャンクに分割し、各チャンク内で単純なリニアリカレンスを適用してローカル依存関係をキャプチャし、その後、チャンク全体でソフトマックスアテンションを行い、長距離インタラクションをモデル化する。
チャンクサイズが16の場合、ラット層は100Kトークンシーケンスで(7時間)訓練速度を向上し、4Kシーケンス長で(9時間)生成する。
論文 参考訳(メタデータ) (2025-07-06T15:08:49Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression [22.038650467915176]
本研究では,異なる頭部と層に異なる注意配置を自動調整するMixture of Attention (MoA)を提案する。
MoAは様々な入力サイズに対応し、いくつかの注意点がより長いシーケンスに対応するように焦点を拡大し、他のヘッドは固定長のローカルコンテキストに一貫して集中することを示した。
論文 参考訳(メタデータ) (2024-06-21T06:58:37Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - CHAI: Clustered Head Attention for Efficient LLM Inference [11.056313961175702]
クラスタ型ヘッドアテンション(CHAI)は、K,Vキャッシュを最大21.4%、推論時間遅延を最大1.73倍まで、微調整を必要とせずに削減することができる。
我々は,K,Vキャッシュを最大21.4%,推論時間遅延を最大1.73倍,微調整を必要とせずに,メモリ要求を最大で1.73倍削減できることを示した。
論文 参考訳(メタデータ) (2024-03-12T20:10:04Z) - Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。