論文の概要: KV Prediction for Improved Time to First Token
- arxiv url: http://arxiv.org/abs/2410.08391v1
- Date: Thu, 10 Oct 2024 21:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:36:35.279597
- Title: KV Prediction for Improved Time to First Token
- Title(参考訳): ファーストトークンの時間短縮のためのKV予測
- Authors: Maxwell Horton, Qingqing Cao, Chenfan Sun, Yanzi Jin, Sachin Mehta, Mohammad Rastegari, Moin Nabi,
- Abstract要約: トランスフォーマーベースの言語モデルによる推論は、プロンプト処理ステップから始まる。
KV予測と呼ばれる新しい手法を導入し、最初の出力に費やした時間を短縮する。
TTFT FLOPs予算の範囲で, 比較的精度が向上したことを示す。
- 参考スコア(独自算出の注目度): 34.73985305945774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference with transformer-based language models begins with a prompt processing step. In this step, the model generates the first output token and stores the KV cache needed for future generation steps. This prompt processing step can be computationally expensive, taking 10s of seconds or more for billion-parameter models on edge devices when prompt lengths or batch sizes rise. This degrades user experience by introducing significant latency into the model's outputs. To reduce the time spent producing the first output (known as the ``time to first token'', or TTFT) of a pretrained model, we introduce a novel method called KV Prediction. In our method, a small auxiliary model is used to process the prompt and produce an approximation of the KV cache used by a base model. This approximated KV cache is then used with the base model for autoregressive generation without the need to query the auxiliary model again. We demonstrate that our method produces a pareto-optimal efficiency-accuracy trade-off when compared to baselines. On TriviaQA, we demonstrate relative accuracy improvements in the range of $15\%-50\%$ across a range of TTFT FLOPs budgets. We also demonstrate accuracy improvements of up to $30\%$ on HumanEval python code completion at fixed TTFT FLOPs budgets. Additionally, we benchmark models on an Apple M2 Pro CPU and demonstrate that our improvement in FLOPs translates to a TTFT speedup on hardware. We release our code at https://github.com/apple/corenet/tree/main/projects/kv-prediction .
- Abstract(参考訳): トランスフォーマーベースの言語モデルによる推論は、プロンプト処理ステップから始まる。
このステップでは、モデルが最初の出力トークンを生成し、将来の生成ステップに必要なKVキャッシュを格納する。
このプロンプト処理ステップは計算コストが高く、プロンプトの長さやバッチサイズが大きくなると、エッジデバイス上で10秒以上かかる。
これにより、モデルの出力に大幅なレイテンシを導入することで、ユーザエクスペリエンスが低下する。
事前訓練されたモデルの最初の出力( '`time to first token'' または TTFT)の生成に要する時間を短縮するため、KV予測と呼ばれる新しい手法を導入する。
本手法では, サブモデルを用いてプロンプトを処理し, ベースモデルで使用するKVキャッシュの近似を生成する。
この近似KVキャッシュは、補助モデルに再度問い合わせることなく、ベースモデルで自動回帰生成に使用される。
本手法は, ベースラインと比較した場合, 最適効率と精度のトレードオフが生じることを示す。
TriviaQA では,TTFT FLOPs 予算の範囲において,15 %-50 % の範囲で比較的精度が向上したことを示す。
また,固定TTFT FLOPs予算において,HumanEval pythonのコード補完に対して最大30 %の精度向上を図った。
さらに、Apple M2 ProのCPU上でモデルをベンチマークし、FLOPの改善がハードウェア上でのTTFTスピードアップにつながることを示す。
私たちはhttps://github.com/apple/corenet/tree/main/projects/kv-predictionでコードを公開しています。
関連論文リスト
- T-Stitch: Accelerating Sampling in Pre-Trained Diffusion Models with
Trajectory Stitching [143.72720563387082]
Trajectory Stitching T-Stitchは, ほとんどあるいは全く発生しないことなくサンプリング効率を向上させるための, 単純かつ効率的な手法である。
我々の重要な洞察は、異なる拡散モデルが同じトレーニングデータ分布の下で同様のエンコーディングを学ぶことである。
また,本手法は,SDモデルの高速化を目的としたドロップイン手法としても利用できる。
論文 参考訳(メタデータ) (2024-02-21T23:08:54Z) - SPT: Fine-Tuning Transformer-based Language Models Efficiently with
Sparsification [14.559316921646356]
下流タスクのための微調整トランスフォーマーベースのモデルには、長い実行時間と高いメモリ消費がある。
本稿では,スペーサ性を導入し,トランスフォーマーベースモデルを効率的に微調整するSPTシステムを提案する。
SPTは、最適化されたベースラインを一貫して上回り、ピークメモリ消費を最大50%削減し、微調整を最大2.2倍高速化する。
論文 参考訳(メタデータ) (2023-12-16T07:44:52Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - On-demand compute reduction with stochastic wav2vec 2.0 [63.22845151306881]
本稿では、wav2vec 2.0(W2V2)モデルに対するオンデマンドの計算量削減のための圧縮を提案する。
960hのLibrispeechデータセットで事前学習し、10hの転写データに微調整を行った結果,同じモデルを用いて単語誤り率(WER)と推測時間とのスムーズなトレードオフが得られた。
論文 参考訳(メタデータ) (2022-04-25T19:25:46Z) - TangoBERT: Reducing Inference Cost by using Cascaded Architecture [9.496399437260678]
ケースケードモデルアーキテクチャであるTangoBERTについて述べる。
第2階層モデルを適用するかどうかの決定は、第1階層モデルによって生成される信頼スコアに基づいて行われる。
我々はTangoBERT推論CPUの高速化を4つのテキスト分類GLUEタスクと1つの読解タスクで報告する。
論文 参考訳(メタデータ) (2022-04-13T09:45:08Z) - Learned Token Pruning for Transformers [39.181816379061374]
Learned Token Pruning ()メソッドは、データがトランスフォーマーの異なるレイヤを通過すると、冗長なトークンを減らす。
複数のGLUEタスクに対して,提案手法の性能を広範囲に検証する。
予備的な結果はTesla T4とIntel Haswellの1.4倍と1.9倍のスループット向上を示す。
論文 参考訳(メタデータ) (2021-07-02T09:00:13Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。