Fugu-MT 論文翻訳(概要): LoLA: Low-Rank Linear Attention With Sparse Caching

論文の概要: LoLA: Low-Rank Linear Attention With Sparse Caching

arxiv url: http://arxiv.org/abs/2505.23666v1
Date: Thu, 29 May 2025 17:12:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:08.023612
Title: LoLA: Low-Rank Linear Attention With Sparse Caching
Title（参考訳）: LoLA:スパースキャッシングによる低ランクリニアアテンション
Authors: Luke McDermott, Robert W. Heath Jr., Rahul Parhi,
Abstract要約: トランスフォーマーベースの大規模言語モデルは、長いシーケンスの推論において二次的な複雑さに悩まされる。スパースキャッシュを用いた低ランク線形注意(LoLA: Low-rank Linear Attention)を提案する。推論のみの戦略として、LoLAは最大8Kコンテキスト長のパスキー検索を可能にする。
参考スコア（独自算出の注目度）: 36.03256813033104
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based large language models suffer from quadratic complexity at inference on long sequences. Linear attention methods are efficient alternatives, however, they fail to provide an accurate approximation of softmax attention. By additionally incorporating sliding window attention into each linear attention head, this gap can be closed for short context-length tasks. Unfortunately, these approaches cannot recall important information from long contexts due to "memory collisions". In this paper , we propose LoLA: Low-rank Linear Attention with sparse caching. LoLA separately stores additional key-value pairs that would otherwise interfere with past associative memories. Moreover, LoLA further closes the gap between linear attention models and transformers by distributing past key-value pairs into three forms of memory: (i) recent pairs in a local sliding window; (ii) difficult-to-memorize pairs in a sparse, global cache; and (iii) generic pairs in the recurrent hidden state of linear attention. As an inference-only strategy, LoLA enables pass-key retrieval on up to 8K context lengths on needle-in-a-haystack tasks from RULER. It boosts the accuracy of the base subquadratic model from 0.6% to 97.4% at 4K context lengths, with a 4.6x smaller cache than that of Llama-3.1 8B. LoLA demonstrates strong performance on zero-shot commonsense reasoning tasks among 1B and 8B parameter subquadratic models. Finally, LoLA is an extremely lightweight approach: Nearly all of our results can be reproduced on a single consumer GPU.
Abstract（参考訳）: トランスフォーマーベースの大規模言語モデルは、長いシーケンスの推論において二次的な複雑さに悩まされる。線形アテンション法は効率的な代替手段であるが,ソフトマックスアテンションの正確な近似は得られなかった。さらに、各線形アテンションヘッドにスライディングウィンドウアテンションを組み込むことで、このギャップを短い文脈長のタスクで閉じることができる。残念ながら、これらのアプローチは「メモリ衝突」のため、長いコンテキストから重要な情報を思い出すことはできない。本稿では,疎キャッシュを用いたLoLA:低ランク線形注意(Low-rank Linear Attention)を提案する。 LoLAは別のキーと値のペアを格納し、それ以外は過去の連想記憶を妨害する。さらに、LoLAは、過去のキー値対を3種類のメモリに分散することで、線形アテンションモデルとトランスフォーマーのギャップを埋める。 (i) 局所的なスライディングウィンドウにおける最近のペア (二)疎大なグローバルキャッシュにおけるペアの記憶が難しいこと、及び (iii)線形注意の繰り返し隠れ状態におけるジェネリックペア。推論のみの戦略として、LOLAはRULERのニードル・イン・ア・ヘイスタックタスクで最大8Kコンテキスト長のパスキー検索を可能にする。これにより、4Kコンテキスト長で0.6%から97.4%まで精度が向上し、Llama-3.1 8Bの4.6倍のキャッシュを持つ。 LoLAは、0ショットのコモンセンス推論タスクにおいて、1Bおよび8Bパラメータサブクワッドラティックモデルで強い性能を示す。最後に、LoLAは非常に軽量なアプローチです。ほぼすべての結果は、単一のコンシューマGPUで再現できます。

関連論文リスト

LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
RAT: Bridging RNN Efficiency and Attention Accuracy in Language Modeling [17.437929000395112]
再発機構と注意機構の間にラットという中間設計を導入する。入力をチャンクに分割し、各チャンク内で単純なリニアリカレンスを適用してローカル依存関係をキャプチャし、その後、チャンク全体でソフトマックスアテンションを行い、長距離インタラクションをモデル化する。チャンクサイズが16の場合、ラット層は100Kトークンシーケンスで(7時間)訓練速度を向上し、4Kシーケンス長で(9時間)生成する。
論文参考訳（メタデータ） (2025-07-06T15:08:49Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression [22.038650467915176]
本研究では,異なる頭部と層に異なる注意配置を自動調整するMixture of Attention (MoA)を提案する。 MoAは様々な入力サイズに対応し、いくつかの注意点がより長いシーケンスに対応するように焦点を拡大し、他のヘッドは固定長のローカルコンテキストに一貫して集中することを示した。
論文参考訳（メタデータ） (2024-06-21T06:58:37Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
CHAI: Clustered Head Attention for Efficient LLM Inference [11.056313961175702]
クラスタ型ヘッドアテンション(CHAI)は、K,Vキャッシュを最大21.4%、推論時間遅延を最大1.73倍まで、微調整を必要とせずに削減することができる。我々は,K,Vキャッシュを最大21.4%,推論時間遅延を最大1.73倍,微調整を必要とせずに,メモリ要求を最大で1.73倍削減できることを示した。
論文参考訳（メタデータ） (2024-03-12T20:10:04Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文参考訳（メタデータ） (2023-10-05T03:47:57Z)
IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文参考訳（メタデータ） (2021-03-17T23:13:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。