論文の概要: NoMAD-Attention: Efficient LLM Inference on CPUs Through
Multiply-add-free Attention
- arxiv url: http://arxiv.org/abs/2403.01273v1
- Date: Sat, 2 Mar 2024 17:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 14:29:55.198248
- Title: NoMAD-Attention: Efficient LLM Inference on CPUs Through
Multiply-add-free Attention
- Title(参考訳): NoMAD-Attention: Multiply-add-free Attention による CPU 上での効率的な LLM 推論
- Authors: Tianyi Zhang, Jonah Wonkyu Yi, Bowen Yao, Zhaozhuo Xu, Anshumali
Shrivastava
- Abstract要約: NoMAD-Attentionは、MAD操作を登録内ルックアップに置き換える効率的なアテンションアルゴリズムである。
NoMAD-AttentionはSIMDレジスタへの高速アクセスを繰り返すことで注目スコアの計算を行う。
In this show that NoMAD-Attention has well to the quality of the original LLMs and improve up the 4bit Quantized LLaMA-7B-based model to up 2$times$ at 16k context length。
- 参考スコア(独自算出の注目度): 35.76200005898016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model inference on Central Processing Units (CPU) is
challenging due to the vast quantities of expensive Multiply-Add (MAD) matrix
operations in the attention computations. In this paper, we argue that there is
a rare gem in modern CPUs, Single-Instruction-Multiple-Data (SIMD) registers,
which allow for ultra-low-latency lookups in batch. We leverage this unique
capability of CPUs to propose NoMAD-Attention, an efficient attention algorithm
that replaces MAD operations with in-register lookups. Through hardware-aware
algorithmic designs, NoMAD-Attention achieves the computation of attention
scores using repeated fast accesses to SIMD registers despite their highly
limited sizes. Moreover, NoMAD-Attention works with pre-trained attention-based
LLMs without model finetuning. Empirical evaluations demonstrate that
NoMAD-Attention maintains the quality of the original LLMs well, and speeds up
the 4-bit quantized LLaMA-7B-based model by up to 2$\times$ at 16k context
length. Our results are reproducible at
https://github.com/tonyzhang617/nomad-dist.
- Abstract(参考訳): 集中処理ユニット(CPU)における大規模言語モデル推論は、注意計算において大量の高価なマルチプライアドアドアド(MAD)行列演算のために困難である。
本稿では,最近のcpuにはsimd(single-instruction-multiple-data)レジスタがあり,バッチで超低遅延のルックアップを可能にする。
我々は、MAD操作を登録内ルックアップに置き換える効率的な注意アルゴリズムであるNoMAD-Attentionを提案する。
NoMAD-Attentionはハードウェアを意識したアルゴリズム設計を通じて,SIMDレジスタへの高速な繰り返しアクセスによるアテンションスコアの計算を実現する。
さらに、NoMAD-Attentionは、モデル微調整なしで、事前学習された注意に基づくLLMで動作する。
実証的な評価では、NoMAD-Attentionは元のLLMの品質をよく維持し、4ビット量子化LLaMA-7Bベースのモデルを最大2$\times$で16kコンテキスト長で高速化する。
結果はhttps://github.com/tonyzhang617/nomad-distで再現できます。
関連論文リスト
- Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Self-Selected Attention Span for Accelerating Large Language Model Inference [10.305434265471938]
大規模言語モデル(LLM)は困難なタスクを解くことができる。
LLMの推論計算は、新しいトークンを生成する際に出席しなければならないトークンの数が増えるため、非常に非効率である。
LLMの問題解決能力を利用して、推論時間の効率を最適化する。
論文 参考訳(メタデータ) (2024-04-14T19:36:04Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via
Self-Distillation [13.262366437264188]
BitDistillerは、大規模言語モデル(LLM)の性能を高めるために、知識蒸留(KD)と量子化認識トレーニング(QAT)を相乗化するフレームワークである。
具体的には、BitDistillerはまず、量子化された重みの忠実さを最大限に保存するために、調整された非対称な量子化とクリッピング技術を導入し、その後、新しい信頼性・コールバック・リーブラー分岐(CAKLD)の目的を提案する。
実証的な評価では、BitDistillerは、一般的な言語理解と複雑な推論ベンチマーク上の3ビットおよび2ビット構成の両方において、既存のメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2024-02-16T12:27:15Z) - Efficient LLM Inference on CPUs [8.802223672775844]
大規模言語モデル(LLM)は、幅広いタスクにおいて、顕著なパフォーマンスと大きなポテンシャルを示してきた。
これらのモデルのデプロイは、天文学的なモデルパラメータの量のために困難でした。
LLMのデプロイをより効率的にするための効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-01T13:08:50Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
大規模言語モデル(LLM)は、多数のアプリケーションの能力を変革した。
エッジデバイス上でのLSMの実行により、レイテンシの低減とユーザエクスペリエンスの向上を実現している。
低ビット量のみの量子化のためのアクティベーション・アウェア・ウェイト量子化(AWQ)を提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。