論文の概要: Loki: Low-rank Keys for Efficient Sparse Attention
- arxiv url: http://arxiv.org/abs/2406.02542v2
- Date: Thu, 07 Nov 2024 18:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 18:11:04.083107
- Title: Loki: Low-rank Keys for Efficient Sparse Attention
- Title(参考訳): Loki: 効率的なスパースアテンションのための低ランクキー
- Authors: Prajwal Singhania, Siddharth Singh, Shwai He, Soheil Feizi, Abhinav Bhatele,
- Abstract要約: 大規模言語モデル(LLM)の推論は、計算コストとメモリコストの面で高価である。
本研究では,注目ブロックで計算された鍵ベクトルの次元性に着目し,自己注意を近似する手法を提案する。
低次元空間で計算されたアテンションスコアに基づいてKVキャッシュ内のトークンをランク付けし、選択する新しいスパースアテンション手法であるLokiを提案する。
- 参考スコア(独自算出の注目度): 44.74682508879725
- License:
- Abstract: Inference on large language models (LLMs) can be expensive in terms of the compute and memory costs involved, especially when long sequence lengths are used. In particular, the self-attention mechanism used in LLM inference contributes significantly to these costs, which has sparked an interest in approximating the self-attention computation to reduce such costs. In this work, we propose to approximate self-attention by focusing on the dimensionality of key vectors computed in the attention block. Our analysis reveals that key vectors lie in a significantly lower-dimensional space, consistently across several datasets and models. Exploiting this observation, we propose Loki, a novel sparse attention method that ranks and selects tokens in the KV-cache based on attention scores computed in low-dimensional space. Our evaluations show that Loki is able to speed up the attention computation due to reduced data movement (load/store) and compute costs while maintaining the efficacy of the models better than other popular approximation methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論は、特に長いシーケンス長を使用する場合、計算コストとメモリコストの面でコストがかかる可能性がある。
特に、LLM推論で使用される自己注意機構はこれらのコストに大きく寄与し、そのようなコストを削減するために自己注意計算を近似することへの関心を喚起している。
本研究では,注目ブロック内で計算される鍵ベクトルの次元性に着目し,自己注意を近似する手法を提案する。
我々の分析により、キーベクトルは、いくつかのデータセットやモデルに一貫して、非常に低次元の空間にあることが明らかとなった。
そこで本研究では,低次元空間で計算された注目スコアに基づいて,KVキャッシュ内のトークンをランク付けし,選択する新しいスパークアテンション手法であるLokiを提案する。
評価の結果,ロキはデータ移動量(ロード/ストア)の削減や計算コストの削減による注意計算を高速化すると同時に,一般的な近似手法よりもモデルの有効性を向上できることがわかった。
関連論文リスト
- Efficiently Scanning and Resampling Spatio-Temporal Tasks with Irregular Observations [13.491183255489396]
本稿では,2次元の潜伏状態と観測値の交叉アテンションを交互に交互に行うアルゴリズムを提案する。
提案アルゴリズムは,従来の手法と比較して,パラメータカウントが低く,トレーニングや推論が高速である場合に比較して精度が向上する。
論文 参考訳(メタデータ) (2024-10-11T10:11:31Z) - Eigen Attention: Attention in Low-Rank Space for KV Cache Compression [9.080678336379528]
我々は,低ランク空間における注意操作を行うEigen Attentionを提案し,KVキャッシュメモリのオーバーヘッドを低減する。
その結果,Eigen AttentionはKVキャッシュサイズを最大40%削減し,注目動作遅延を最大60%低減し,性能の低下を最小化できることがわかった。
論文 参考訳(メタデータ) (2024-08-10T22:47:12Z) - Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention [19.618556742380086]
固定メモリ使用時の各種シーケンス長のトレーニング速度を一定に維持する最初の線形アテンション実装であるLightning Attentionを提案する。
有効性を保ちながら精度を高めるために,我々の雷の注意に合わせた新しいアーキテクチャであるTransNormerLLM(TNL)を導入する。
論文 参考訳(メタデータ) (2024-05-27T17:38:13Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文 参考訳(メタデータ) (2023-07-14T21:01:59Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - SimpleTron: Eliminating Softmax from Attention Computation [68.8204255655161]
そこで本研究では,ドット積のペアワイズアテンション層がモデル性能に冗長であることを示す。
我々の知る限りでは、Long-Range Arenaベンチマークのいくつかのタスクにおける既存の注意評価よりも優れる、シンプルで高速な代替案を提案する。
論文 参考訳(メタデータ) (2021-11-23T17:06:01Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - Kronecker Attention Networks [69.22257624495899]
我々は,高次テンソルデータを直接操作するKronecker attention operator (KAOs) を開発した。
その結果,本手法は必要な計算資源の量を数百倍に削減できることがわかった。
論文 参考訳(メタデータ) (2020-07-16T16:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。