Fugu-MT 論文翻訳(概要): TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding

論文の概要: TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding

arxiv url: http://arxiv.org/abs/2404.11912v2
Date: Tue, 23 Apr 2024 03:38:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 18:36:58.239894
Title: TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding
Title（参考訳）: TriForce: 階層的投機的復号化による長周期生成のロスレス高速化
Authors: Hanshi Sun, Zhuoming Chen, Xinyu Yang, Yuandong Tian, Beidi Chen,
Abstract要約: キーバリュー(KV)キャッシュは、効率的なロングシーケンスサポートのボトルネックとして現れている。 TriForceは階層的な投機的復号化システムであり、長いシーケンス生成にスケーラブルである。トリフォースの頑丈さは、様々な温度で一貫して卓越した性能で強調されている。
参考スコア（独自算出の注目度）: 43.28712253351293
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With large language models (LLMs) widely deployed in long content generation recently, there has emerged an increasing demand for efficient long-sequence inference support. However, key-value (KV) cache, which is stored to avoid re-computation, has emerged as a critical bottleneck by growing linearly in size with the sequence length. Due to the auto-regressive nature of LLMs, the entire KV cache will be loaded for every generated token, resulting in low utilization of computational cores and high latency. While various compression methods for KV cache have been proposed to alleviate this issue, they suffer from degradation in generation quality. We introduce TriForce, a hierarchical speculative decoding system that is scalable to long sequence generation. This approach leverages the original model weights and dynamic sparse KV cache via retrieval as a draft model, which serves as an intermediate layer in the hierarchy and is further speculated by a smaller model to reduce its drafting latency. TriForce not only facilitates impressive speedups for Llama2-7B-128K, achieving up to 2.31$\times$ on an A100 GPU but also showcases scalability in handling even longer contexts. For the offloading setting on two RTX 4090 GPUs, TriForce achieves 0.108s/token$\unicode{x2014}$only half as slow as the auto-regressive baseline on an A100, which attains 7.78$\times$ on our optimized offloading system. Additionally, TriForce performs 4.86$\times$ than DeepSpeed-Zero-Inference on a single RTX 4090 GPU. TriForce's robustness is highlighted by its consistently outstanding performance across various temperatures. The code is available at https://github.com/Infini-AI-Lab/TriForce.
Abstract（参考訳）: 近年,大規模言語モデル (LLM) が長期コンテンツ生成に広く採用されているため,効率的な長期推論サポートの必要性が高まっている。しかし、再計算を避けるために格納されるキー値(KV)キャッシュは、シーケンス長と線形に大きくなることで重要なボトルネックとなっている。 LLMの自己回帰性のため、KVキャッシュ全体が生成されたトークン毎にロードされるため、計算コアの低利用と高いレイテンシが生じる。 KVキャッシュの様々な圧縮手法がこの問題を軽減するために提案されているが、それらは生成品質の低下に悩まされている。本稿では,時系列生成にスケーラブルな階層型投機復号システムTriForceを紹介する。このアプローチでは,従来のモデル重みと動的スパースKVキャッシュをドラフトモデルとして検索し,階層の中間層として機能する。 TriForceは、Llama2-7B-128Kの印象的なスピードアップを促進し、A100 GPU上で最大2.31$\times$を達成するだけでなく、さらに長いコンテキストを扱うスケーラビリティも示す。 2つのRTX 4090 GPUのオフロード設定のために、TriForceは0.108s/token$\unicode{x2014}$onlyをA100のオートレグレッシブベースラインの半分の速度で達成し、最適化されたオフロードシステムでは7.78$\times$に達する。さらに、TriForceは1つのRTX 4090 GPU上でDeepSpeed-Zero-Inferenceよりも4.86$\times$を実行する。トリフォースの頑丈さは、様々な温度で一貫して卓越した性能で強調されている。コードはhttps://github.com/Infini-AI-Lab/TriForce.comで公開されている。

関連論文リスト

LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization [21.229296254354878]
生成型大規模言語モデル(LLM)におけるキーバリューキャッシュは、かなりのメモリオーバーヘッドをもたらす。既存の作業は、KVキャッシュをオフロードまたは圧縮することで、この負担を軽減する。本稿では,量子化とオフロードをシームレスに統合するハイブリッド圧縮手法であるTailorKVを提案する。
論文参考訳（メタデータ） (2025-05-26T07:00:04Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
BitDecoding: Unlocking Tensor Cores for Long-Context LLMs Decoding with Low-Bit KV Cache [5.499460434066963]
BitDecodingは、Coresをアンロックして、低ビットのKVキャッシュで効率的なデコーディングを行うフレームワークである。 A100では7.5倍、A100では4.8倍、H100では8.9倍のスピードアップを実現している。また、最先端のロービットKVキャッシュ実装(QServe)を最大4.3倍に向上させる。
論文参考訳（メタデータ） (2025-03-24T15:22:41Z)
Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference Efficiency [26.173523821684306]
トークン配置対応層スキップフレームワークを提案し,性能を維持しつつ1.5倍の演算を効率よく節約する。 7 sim 70$のパラメータを持つ大規模言語モデルの実験では、D3$は完全な推論パイプラインと比較して平均1.5倍のスピードアップを達成することができる。
論文参考訳（メタデータ） (2025-03-11T15:15:54Z)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference [25.638980944695728]
ShadowKVは、LLM(Long-Context Large Language Model)推論システムである。低ランクのキーキャッシュを格納し、バリューキャッシュをオフロードすることで、より大きなバッチサイズと長いシーケンスのためにメモリフットプリントを削減する。最大6$times$大きなバッチサイズをサポートし、A100 GPUで最大3.04$times$までスループットを向上できる。
論文参考訳（メタデータ） (2024-10-28T19:08:12Z)
Fast Feedforward 3D Gaussian Splatting Compression [55.149325473447384]
3D Gaussian Splatting (FCGS) は、1つのフィードフォワードパスで3DGS表現を高速に圧縮できる最適化フリーモデルである。 FCGSは圧縮比を20倍以上に向上し、高精細度を維持しながら、ほとんどのシーン毎のSOTA最適化手法を上回ります。
論文参考訳（メタデータ） (2024-10-10T15:13:08Z)
SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation [32.62031120968721]
Swift KVは、プロンプトトークン処理の時間とコストを削減するために設計されたモデル変換および蒸留手順である。これはプリフィルの計算要求を50%削減し、KVキャッシュのメモリ要求を62.5%削減する。 16ビット精度でLlama-3.1-70Bの16Kトークン/sに変換する通常の推論スループットの560 TFlops/GPUを実現することができる。
論文参考訳（メタデータ） (2024-10-04T22:45:26Z)
MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding [11.030853173032199]
LLM(Large Language Models)は、長いコンテキストのアプリケーションで広く使われるようになった。投機的復号法(SD)は、性能を犠牲にすることなくレイテンシを低減する手法として広く用いられている。我々は,中間列から長列の高スループット推論方式であっても,驚くほどSDが高速化可能であることを示す。
論文参考訳（メタデータ） (2024-08-20T17:57:31Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文参考訳（メタデータ） (2024-07-02T17:59:56Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文参考訳（メタデータ） (2023-10-05T03:47:57Z)
H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文参考訳（メタデータ） (2023-06-24T20:11:14Z)
Learning sparse auto-encoders for green AI image coding [5.967279020820772]
本稿では,メモリフットプリントが小さく,計算能力の少ないCAEを用いた画像圧縮の損失問題に対処する。制約付きアプローチと新しい構造化スパース学習手法を提案する。実験結果から,$ell_1,1$制約は最も構造化された近位間隔を提供し,メモリと計算コストの低減を図っている。
論文参考訳（メタデータ） (2022-09-09T06:31:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。