論文の概要: TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding
- arxiv url: http://arxiv.org/abs/2404.11912v2
- Date: Tue, 23 Apr 2024 03:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 18:36:58.239894
- Title: TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding
- Title(参考訳): TriForce: 階層的投機的復号化による長周期生成のロスレス高速化
- Authors: Hanshi Sun, Zhuoming Chen, Xinyu Yang, Yuandong Tian, Beidi Chen,
- Abstract要約: キーバリュー(KV)キャッシュは、効率的なロングシーケンスサポートのボトルネックとして現れている。
TriForceは階層的な投機的復号化システムであり、長いシーケンス生成にスケーラブルである。
トリフォースの頑丈さは、様々な温度で一貫して卓越した性能で強調されている。
- 参考スコア(独自算出の注目度): 43.28712253351293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With large language models (LLMs) widely deployed in long content generation recently, there has emerged an increasing demand for efficient long-sequence inference support. However, key-value (KV) cache, which is stored to avoid re-computation, has emerged as a critical bottleneck by growing linearly in size with the sequence length. Due to the auto-regressive nature of LLMs, the entire KV cache will be loaded for every generated token, resulting in low utilization of computational cores and high latency. While various compression methods for KV cache have been proposed to alleviate this issue, they suffer from degradation in generation quality. We introduce TriForce, a hierarchical speculative decoding system that is scalable to long sequence generation. This approach leverages the original model weights and dynamic sparse KV cache via retrieval as a draft model, which serves as an intermediate layer in the hierarchy and is further speculated by a smaller model to reduce its drafting latency. TriForce not only facilitates impressive speedups for Llama2-7B-128K, achieving up to 2.31$\times$ on an A100 GPU but also showcases scalability in handling even longer contexts. For the offloading setting on two RTX 4090 GPUs, TriForce achieves 0.108s/token$\unicode{x2014}$only half as slow as the auto-regressive baseline on an A100, which attains 7.78$\times$ on our optimized offloading system. Additionally, TriForce performs 4.86$\times$ than DeepSpeed-Zero-Inference on a single RTX 4090 GPU. TriForce's robustness is highlighted by its consistently outstanding performance across various temperatures. The code is available at https://github.com/Infini-AI-Lab/TriForce.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) が長期コンテンツ生成に広く採用されているため,効率的な長期推論サポートの必要性が高まっている。
しかし、再計算を避けるために格納されるキー値(KV)キャッシュは、シーケンス長と線形に大きくなることで重要なボトルネックとなっている。
LLMの自己回帰性のため、KVキャッシュ全体が生成されたトークン毎にロードされるため、計算コアの低利用と高いレイテンシが生じる。
KVキャッシュの様々な圧縮手法がこの問題を軽減するために提案されているが、それらは生成品質の低下に悩まされている。
本稿では,時系列生成にスケーラブルな階層型投機復号システムTriForceを紹介する。
このアプローチでは,従来のモデル重みと動的スパースKVキャッシュをドラフトモデルとして検索し,階層の中間層として機能する。
TriForceは、Llama2-7B-128Kの印象的なスピードアップを促進し、A100 GPU上で最大2.31$\times$を達成するだけでなく、さらに長いコンテキストを扱うスケーラビリティも示す。
2つのRTX 4090 GPUのオフロード設定のために、TriForceは0.108s/token$\unicode{x2014}$onlyをA100のオートレグレッシブベースラインの半分の速度で達成し、最適化されたオフロードシステムでは7.78$\times$に達する。
さらに、TriForceは1つのRTX 4090 GPU上でDeepSpeed-Zero-Inferenceよりも4.86$\times$を実行する。
トリフォースの頑丈さは、様々な温度で一貫して卓越した性能で強調されている。
コードはhttps://github.com/Infini-AI-Lab/TriForce.comで公開されている。
関連論文リスト
- GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless
Generative Inference of LLM [39.77567916589569]
キーバリュー(KV)キャッシングは,大規模言語モデル(LLM)推論における生成速度を高速化するデファクトとなっている。
既存の方法は、重要でないトークンをドロップしたり、全てのエントリを均一に定量化することに依存している。
本稿では,高速なKVキャッシュ圧縮フレームワークであるGEARを提案する。
論文 参考訳(メタデータ) (2024-03-08T18:48:30Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference [83.34219335496073]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - TCNCA: Temporal Convolution Network with Chunked Attention for Scalable
Sequence Processing [52.64837396100988]
MEGAは最近のトランスフォーマーベースのアーキテクチャで、線形リカレント演算子を使用し、並列計算はFFTに基づいて、$O(LlogL)$で、$L$はシーケンス長である。
線形再帰を特別な時間的畳み込みネットワークに置き換えることで、より浅いネットワークでより大きい受容場を許容し、計算複雑性を$O(L)$に減らし、それらのアプローチを構築する。
我々は,EnWik8言語モデリングにおけるTCNCA,LRA(Long-range-arena)シーケンス分類,および合成推論ベンチマーク連想リコールの評価を行った。
論文 参考訳(メタデータ) (2023-12-09T16:12:25Z) - ACNPU: A 4.75TOPS/W 1080P@30FPS Super Resolution Accelerator with
Decoupled Asymmetric Convolution [0.0502254944841629]
深層学習駆動型超解像(SR)は従来の技術より優れているが、高複雑性とメモリ帯域幅の課題に直面している。
本稿では,エネルギー効率の高いSR加速器ACNPUを提案する。
ACNPUは27層モデルで画質を0.34dB向上させるが、FSRCNNよりも36%の複雑さを必要とする。
論文 参考訳(メタデータ) (2023-08-30T07:23:32Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z) - End-to-End Neural Network Compression via $\frac{\ell_1}{\ell_2}$
Regularized Latency Surrogates [20.31383698391339]
我々のアルゴリズムは多用途であり、プルーニング、低ランク因数分解、量子化など多くの一般的な圧縮手法で利用することができる。
高速で、シングルモデルトレーニングとほぼ同じ時間で実行される。
論文 参考訳(メタデータ) (2023-06-09T09:57:17Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - Learning sparse auto-encoders for green AI image coding [5.967279020820772]
本稿では,メモリフットプリントが小さく,計算能力の少ないCAEを用いた画像圧縮の損失問題に対処する。
制約付きアプローチと新しい構造化スパース学習手法を提案する。
実験結果から,$ell_1,1$制約は最も構造化された近位間隔を提供し,メモリと計算コストの低減を図っている。
論文 参考訳(メタデータ) (2022-09-09T06:31:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。