論文の概要: Online Vector Quantized Attention
- arxiv url: http://arxiv.org/abs/2602.03922v1
- Date: Tue, 03 Feb 2026 18:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.229295
- Title: Online Vector Quantized Attention
- Title(参考訳): オンラインベクトル量子アテンション
- Authors: Nick Alonso, Tomas Figliolia, Beren Millidge,
- Abstract要約: セルフアテンションは長時間のタスクではうまく機能するが、高価な二次計算と線形メモリコストがある。
線形アテンションとSSMは線形計算と定数メモリのみを使用するが、長いコンテキスト処理に苦労する。
我々は,メモリ計算コストと長文処理の妥協性を改善するために,シーケンス混合層を開発した。
- 参考スコア(独自算出の注目度): 8.77648559398825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard sequence mixing layers used in language models struggle to balance efficiency and performance. Self-attention performs well on long context tasks but has expensive quadratic compute and linear memory costs, while linear attention and SSMs use only linear compute and constant memory but struggle with long context processing. In this paper, we develop a sequence mixing layer that aims to find a better compromise between memory-compute costs and long-context processing, which we call online vector-quantized (OVQ) attention. OVQ-attention requires linear compute costs and constant memory, but, unlike linear attention and SSMs, it uses a sparse memory update that allows it to greatly increase the size of its memory state and, consequently, memory capacity. We develop a theoretical basis for OVQ-attention based on Gaussian mixture regression, and we test it on a variety of synthetic long context tasks and on long context language modeling. OVQ-attention shows significant improvements over linear attention baselines and the original VQ-attention, on which OVQ-attention was inspired. It demonstrates competitive, and sometimes identical, performance to strong self-attention baselines up 64k sequence length, despite using a small fraction of the memory of full self-attention.
- Abstract(参考訳): 言語モデルで使用される標準的なシーケンス混合層は、効率と性能のバランスをとるのに苦労する。
セルフアテンションは、長いコンテキストタスクでうまく機能するが、高価な二次計算と線形メモリコストを持ち、線形アテンションとSSMは線形計算と定数メモリのみを使用するが、長いコンテキスト処理に苦労する。
本稿では,オンラインベクトル量子化(OVQ)アテンションと呼ばれる,メモリ計算コストと長文処理の妥協性の向上を目的としたシーケンス混合層を開発する。
OVQアテンションは線形計算コストと一定のメモリを必要とするが、線形アテンションやSSMとは異なり、メモリ状態の大幅な増加とメモリ容量の増大を可能にするスパースメモリ更新を使用する。
我々は,ガウス混合回帰に基づくOVQアテンションの理論的基盤を開発し,それを様々な合成長文脈タスクや長期文脈言語モデリングで検証する。
OVQアテンションは、線形アテンションベースラインと、OVQアテンションにインスパイアされたオリジナルのVQアテンションよりも大幅に改善されている。
これは、完全な自己注意のメモリのごく一部を使用しながら、強い自己注意のベースラインを64kのシーケンス長まで向上させる、競争力があり、時として同じパフォーマンスを示す。
関連論文リスト
- Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。