論文の概要: Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache
- arxiv url: http://arxiv.org/abs/2506.11886v1
- Date: Fri, 13 Jun 2025 15:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.855098
- Title: Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache
- Title(参考訳): 均一な注意を超える:フーリエ近似KVキャッシュによるメモリ効率の良いLCM
- Authors: Xiaoran Liu, Siyang He, Qiqi Wang, Ruixiao Li, Yuerong Song, Zhigeng Liu, Linlin Li, Qun Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu,
- Abstract要約: 本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。
フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。
本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
- 参考スコア(独自算出の注目度): 67.47789629197857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models struggle with memory demands from the growing Key-Value (KV) cache as context lengths increase. Existing compression methods homogenize head dimensions or rely on attention-guided token pruning, often sacrificing accuracy or introducing computational overhead. We propose FourierAttention, a training-free framework that exploits the heterogeneous roles of transformer head dimensions: lower dimensions prioritize local context, while upper ones capture long-range dependencies. By projecting the long-context-insensitive dimensions onto orthogonal Fourier bases, FourierAttention approximates their temporal evolution with fixed-length spectral coefficients. Evaluations on LLaMA models show that FourierAttention achieves the best long-context accuracy on LongBench and Needle-In-A-Haystack (NIAH). Besides, a custom Triton kernel, FlashFourierAttention, is designed to optimize memory via streamlined read-write operations, enabling efficient deployment without performance compromise.
- Abstract(参考訳): 大規模言語モデルは、コンテキストの長さが増加するにつれて増加するキーバリュー(KV)キャッシュからのメモリ要求に対処する。
既存の圧縮手法は、ヘッド次元を均質化したり、注意誘導されたトークンプルーニングに依存したり、しばしば精度を犠牲にしたり、計算オーバーヘッドを発生させる。
本稿では,トランスフォーマーヘッド次元の不均一な役割を利用するトレーニングフリーフレームワークであるFourierAttentionを提案する。
長コンテキスト非感性次元を直交フーリエ基底に投影することにより、フーリエアテンションはその時間的進化を固定長のスペクトル係数で近似する。
LLaMAモデルによる評価は、FourierAttentionがLongBenchとNeeddle-In-A-Haystack (NIAH)上で最高の長文精度を達成することを示している。
さらに、カスタムのTritonカーネルであるFlashFourierAttentionは、読み書き操作を合理化してメモリを最適化するように設計されている。
関連論文リスト
- FreqKV: Frequency Domain Key-Value Compression for Efficient Context Window Extension [20.360392907997117]
本稿では、新しい周波数領域鍵値(KV)圧縮技術であるFreqKVを提案する。
Freq KVはデコーダのみの大規模言語モデル(LLM)のための効率的なコンテキストウィンドウ拡張を可能にする
長い文脈言語モデリングおよび理解タスクの実験は,提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-05-01T14:53:12Z) - Efficient Pretraining Length Scaling [21.4715211093876]
本稿では,事前学習時に効率よく長さのスケーリングを可能にする新しいフレームワークであるParallel Hidden Decoding Transformer(textitPHD-Transformer)を提案する。
textitPHD-Transformerは、オリジナルのトークンと隠された復号トークンを区別する革新的なKVキャッシュ管理戦略を通じてこれを実現している。
論文 参考訳(メタデータ) (2025-04-21T09:41:26Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。