論文の概要: ATP: Enabling Fast LLM Serving via Attention on Top Principal Keys
- arxiv url: http://arxiv.org/abs/2403.02352v1
- Date: Fri, 1 Mar 2024 19:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:28:30.921711
- Title: ATP: Enabling Fast LLM Serving via Attention on Top Principal Keys
- Title(参考訳): ATP:トップキーの注意を通した高速LLMサービスの実現
- Authors: Yue Niu, Saurav Prakash, Salman Avestimehr
- Abstract要約: ATPは個々のトークンではなく、textbfTop textbfPrincipalキーでtextbfAttentionを修正する。
ATPは通常のアテンション機構よりも計算の複雑さがはるかに低い精度で達成されていることを示す。
- 参考スコア(独自算出の注目度): 17.857030136203253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new attention mechanism with linear complexity, ATP, that
fixates \textbf{A}ttention on \textbf{T}op \textbf{P}rincipal keys, rather than
on each individual token. Particularly, ATP is driven by an important
observation that input sequences are typically low-rank, i.e., input sequences
can be represented by a few principal bases. Therefore, instead of directly
iterating over all the input tokens, ATP transforms inputs into an orthogonal
space and computes attention only on the top principal bases (keys). Owing to
the observed low-rank structure in input sequences, ATP is able to capture
semantic relationships in input sequences with a few principal keys.
Furthermore, the attention complexity is reduced from \emph{quadratic} to
\emph{linear} without incurring a noticeable performance drop. ATP further
reduces complexity for other linear layers with low-rank inputs, leading to
more speedup compared to prior works that solely target the attention module.
Our evaluations on various models (e.g., BERT and Llama) demonstrate that ATP
achieves comparable accuracy with much lower computation and memory complexity
than the standard attention mechanism. In particular, ATP barely loses accuracy
with only $1/2$ principal keys, and only incurs around $2\%$ accuracy drops
with $1/4$ principal keys.
- Abstract(参考訳): 個別のトークンではなく, \textbf{t}op \textbf{p}rincipal キーに \textbf{a}ttentionを固定する,線形複雑性を持つ新たな注意機構であるatpを提案する。
特にATPは、入力シーケンスが典型的には低ランクである、すなわち入力シーケンスをいくつかの主塩基で表すことができるという重要な観察によって駆動される。
したがって、全ての入力トークンを直接反復するのではなく、ATPは入力を直交空間に変換し、トップ主基底(キー)のみに注意を向ける。
入力シーケンスの低ランク構造が観察されているため、ATPは入力シーケンスのセマンティックな関係をいくつかの主キーで捉えることができる。
さらに、注目すべき性能低下を伴わずに、注意の複雑さを \emph{quadratic} から \emph{linear} に低下させる。
atpは、低ランクの入力を持つ他の線形層の複雑さをさらに削減し、アテンションモジュールのみをターゲットとした以前の作業よりも高速化する。
様々なモデル(例えばBERTやLlama)に対する評価では、ATPは標準的なアテンション機構よりも計算とメモリの複雑さがはるかに低い精度で達成されている。
特にATPは、プリンシパルキーが1/2ドル、プリンシパルキーが1/4ドル、精度が2\%程度しかありません。
関連論文リスト
- Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - Are queries and keys always relevant? A case study on Transformer wave functions [0.0]
ドット製品アテンションメカニズム(ドット製品アテンションメカニズム)は、元々自然言語処理(NLP)タスク用に設計されたもので、現代のトランスフォーマーの基盤となっている。
本稿では,変分波動関数のパラメトリゼーションの特定の領域において,トランスフォーマーの適応性について検討する。
論文 参考訳(メタデータ) (2024-05-29T08:32:37Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - SKI to go Faster: Accelerating Toeplitz Neural Networks via Asymmetric
Kernels [69.47358238222586]
Toeplitz Neural Networks (TNN) は、印象的な結果を持つ最近のシーケンスモデルである。
我々は, O(n) 計算複雑性と O(n) 相対位置エンコーダ (RPE) 多層パーセプトロン (MLP) と減衰バイアスコールの低減を目指す。
双方向モデルの場合、これはスパースと低ランクのToeplitz行列分解を動機付ける。
論文 参考訳(メタデータ) (2023-05-15T21:25:35Z) - Vision Transformer with Attentive Pooling for Robust Facial Expression
Recognition [35.46476994042832]
ノイズをプールする2つのモジュール(APモジュール)を直接提示する。
彼らはモデルをガイドし、最も差別的な特徴を強調しながら、あまり関係のない特徴の影響を減らすことを目指している。
簡単に実装でき、学習可能なパラメータがなければ、APPとATPは直感的に計算コストを削減し、性能を向上する。
論文 参考訳(メタデータ) (2022-12-11T10:33:19Z) - WR-ONE2SET: Towards Well-Calibrated Keyphrase Generation [57.11538133231843]
キーワード生成は、入力文書を要約する短いフレーズを自動的に生成することを目的としている。
最近登場したONE2SETパラダイムは、キーフレーズをセットとして生成し、競争性能を達成した。
本稿では, ONE2SET を拡張した WR-ONE2SET を提案する。
論文 参考訳(メタデータ) (2022-11-13T09:56:24Z) - Sparse Attention Acceleration with Synergistic In-Memory Pruning and
On-Chip Recomputation [6.303594714446706]
自己認識機構は、入力シーケンス全体にわたってペアワイズ相関を計測する。
良好な性能にもかかわらず、ペアワイズ相関を計算するのは非常にコストがかかる。
この研究は、注意点を近似的に計算するSPRINTと呼ばれるアクセラレーターを設計することで、これらの制約に対処する。
論文 参考訳(メタデータ) (2022-09-01T17:18:19Z) - Memory-efficient Transformers via Top-$k$ Attention [23.672065688109395]
本研究では,バニラ注意のための簡易かつ高精度な近似法を提案する。
クェリをチャンクで処理し、各クェリに対してキーに関するトップ$kのスコアを計算します。
我々のアプローチは、スクラッチからのトレーニング、微調整、ゼロショット推論を含む複数のセットアップにおいて、バニラの注意にほぼ同一の精度をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-13T02:30:23Z) - Accelerating BERT Inference for Sequence Labeling via Early-Exit [65.7292767360083]
我々は最近成功した早期退避機構を拡張し、シークエンスラベリングタスクに対するPTMの推論を高速化する。
また、異なる層で部分トークンを早期に退避させるトークンレベルの早期退避機構も提案する。
当社のアプローチでは,パフォーマンスの低下を最小限に抑えながら,最大66%~75%の推論コストを削減できる。
論文 参考訳(メタデータ) (2021-05-28T14:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。