論文の概要: TidalDecode: Fast and Accurate LLM Decoding with Position Persistent Sparse Attention
- arxiv url: http://arxiv.org/abs/2410.05076v1
- Date: Mon, 07 Oct 2024 14:30:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:02:01.446190
- Title: TidalDecode: Fast and Accurate LLM Decoding with Position Persistent Sparse Attention
- Title(参考訳): TidalDecode: 位置パース注意による高速かつ高精度なLCMデコーディング
- Authors: Lijie Yang, Zhihao Zhang, Zhuofu Chen, Zikun Li, Zhihao Jia,
- Abstract要約: 大規模言語モデル (LLM) は様々なNLPタスクにおいて大幅な進歩をもたらした。
本稿では,定位置スパークアテンションによる高速かつ高精度なLCMデコーディングシステムであるTidalDecodeを紹介する。
- 参考スコア(独自算出の注目度): 7.4088392854630625
- License:
- Abstract: Large language models (LLMs) have driven significant advancements across diverse NLP tasks, with long-context models gaining prominence for handling extended inputs. However, the expanding key-value (KV) cache size required by Transformer architectures intensifies the memory constraints, particularly during the decoding phase, creating a significant bottleneck. Existing sparse attention mechanisms designed to address this bottleneck have two limitations: (1) they often fail to reliably identify the most relevant tokens for attention, and (2) they overlook the spatial coherence of token selection across consecutive Transformer layers, which can lead to performance degradation and substantial overhead in token selection. This paper introduces TidalDecode, a simple yet effective algorithm and system for fast and accurate LLM decoding through position persistent sparse attention. TidalDecode leverages the spatial coherence of tokens selected by existing sparse attention methods and introduces a few token selection layers that perform full attention to identify the tokens with the highest attention scores, while all other layers perform sparse attention with the pre-selected tokens. This design enables TidalDecode to substantially reduce the overhead of token selection for sparse attention without sacrificing the quality of the generated results. Evaluation on a diverse set of LLMs and tasks shows that TidalDecode closely matches the generative performance of full attention methods while reducing the LLM decoding latency by up to 2.1x.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なNLPタスクにまたがる大幅な進歩を導いており、長いコンテキストモデルでは、拡張された入力を扱うことで優位性を高めている。
しかし、Transformerアーキテクチャが要求するキー値(KV)キャッシュサイズの拡大は、特にデコードフェーズにおいてメモリ制約を増大させ、重大なボトルネックを生み出す。
このボトルネックに対処するために設計された既存のスパースアテンション機構には、2つの制限がある:(1) 注意すべき最も関連性の高いトークンを確実に識別できないこと、(2) 連続したトランスフォーマー層間のトークン選択の空間的コヒーレンスを見落として、パフォーマンスの低下とトークン選択のかなりのオーバーヘッドにつながる。
本稿では,高速かつ高精度なLLM復号システムであるTidalDecodeを紹介する。
TidalDecodeは、既存のスパースアテンションメソッドによって選択されたトークンの空間的コヒーレンスを活用し、トークンを最大限のアテンションスコアで識別するトークン選択層を導入している。
この設計により、TidalDecodeは、生成された結果の品質を犠牲にすることなく、スパースアテンションのためのトークン選択のオーバーヘッドを大幅に削減できる。
多様なLCMとタスクの評価は、TidalDecodeがフルアテンションメソッドの生成性能と密に一致し、LCM復号遅延を最大2.1倍に削減していることを示している。
関連論文リスト
- Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。
我々のVTWアプローチは、性能を維持しながら、様々なマルチモーダルタスクで計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z) - SparseCoder: Advancing Source Code Analysis with Sparse Attention and Learned Token Pruning [10.067863549963834]
本稿では、スパースアテンションと学習トークンプルーニングを取り入れた革新的なアプローチであるSparseCoderを紹介する。
従来の最先端モデルであるCodeBERT,RoBERTa,CodeT5と比較して,SparseCoderがはるかに長い入力シーケンスを処理可能であることを示す。
SparseCoderは測定した他のメソッドの4倍高速で、1秒あたりの浮動小数点演算の50%削減を実現している。
論文 参考訳(メタデータ) (2023-10-11T01:11:30Z) - LLMCad: Fast and Scalable On-device Large Language Model Inference [11.103824752113148]
テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの領域において重要な位置を占める。
現在、これらの生成タスクの実行は、大規模言語モデル(LLM)に大きく依存している。
本稿では,効率的な生成自然言語処理(NLP)タスク用に設計されたオンデバイス推論エンジンであるLLMCadを紹介する。
論文 参考訳(メタデータ) (2023-09-08T10:44:19Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。