論文の概要: SkipDecode: Autoregressive Skip Decoding with Batching and Caching for
Efficient LLM Inference
- arxiv url: http://arxiv.org/abs/2307.02628v1
- Date: Wed, 5 Jul 2023 19:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 16:03:17.556924
- Title: SkipDecode: Autoregressive Skip Decoding with Batching and Caching for
Efficient LLM Inference
- Title(参考訳): SkipDecode: 効率的なLCM推論のためのバッチとキャッシュによる自動回帰的スキップデコーディング
- Authors: Luciano Del Corro, Allie Del Giorno, Sahaj Agarwal, Bin Yu, Ahmed
Awadallah, Subhabrata Mukherjee
- Abstract要約: バッチ推論とKeyValueキャッシュのためのトークンレベルの早期終了メソッドであるSkipDecodeを提案する。
これは、各シーケンス位置のバッチ内の各トークンに対して特異レベル出口を設定することで、以前の制約を克服する。
また、イグジットポイントの単調な減少を保証するため、前のトークンに対してKVキャッシュを再コンパイルする必要がなくなる。
- 参考スコア(独自算出の注目度): 17.947904697850433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive large language models (LLMs) have made remarkable progress in
various natural language generation tasks. However, they incur high computation
cost and latency resulting from the autoregressive token-by-token generation.
To address this issue, several approaches have been proposed to reduce
computational cost using early-exit strategies. These strategies enable faster
text generation using reduced computation without applying the full computation
graph to each token. While existing token-level early exit methods show
promising results for online inference, they cannot be readily applied for
batch inferencing and Key-Value caching. This is because they have to wait
until the last token in a batch exits before they can stop computing. This
severely limits the practical application of such techniques. In this paper, we
propose a simple and effective token-level early exit method, SkipDecode,
designed to work seamlessly with batch inferencing and KV caching. It overcomes
prior constraints by setting up a singular exit point for every token in a
batch at each sequence position. It also guarantees a monotonic decrease in
exit points, thereby eliminating the need to recompute KV Caches for preceding
tokens. Rather than terminating computation prematurely as in prior works, our
approach bypasses lower to middle layers, devoting most of the computational
resources to upper layers, allowing later tokens to benefit from the compute
expenditure by earlier tokens. Our experimental results show that SkipDecode
can obtain 2x to 5x inference speedups with negligible regression across a
variety of tasks. This is achieved using OPT models of 1.3 billion and 6.7
billion parameters, all the while being directly compatible with batching and
KV caching optimization techniques.
- Abstract(参考訳): 自己回帰型大規模言語モデル(LLM)は、様々な自然言語生成タスクにおいて顕著な進歩を遂げている。
しかし、それらは自己回帰トークン・バイ・トークン生成による高い計算コストと遅延を引き起こす。
この問題に対処するために,アーリーエクイット戦略を用いて計算コストを削減する手法がいくつか提案されている。
これらの戦略により、各トークンに全計算グラフを適用することなく、少ない計算を使用する高速なテキスト生成が可能になる。
既存のトークンレベルの早期終了メソッドはオンライン推論に有望な結果を示すが、バッチ推論やキーバリューキャッシュに簡単に適用することはできない。
これは、バッチの終了時に最後のトークンがコンピューティングを停止するまで待たなければならないためです。
これはそのような手法の実用化を厳しく制限する。
本論文では,バッチ推論とKVキャッシングをシームレスに行うための,単純かつ効果的なトークンレベルの早期終了手法であるSkipDecodeを提案する。
これは、各シーケンス位置のバッチ内の各トークンに対して特異な出口点を設定することで、以前の制約を克服する。
また、イグジットポイントの単調な減少を保証するため、前のトークンに対してKVキャッシュを再コンパイルする必要がなくなる。
以前の作業のように計算を早期に終了させるのではなく、計算リソースの大部分を上位層に割り当てることにより、後のトークンが以前のトークンによる計算費用の恩恵を受けることができるのです。
実験の結果,skipdecodeは様々なタスクで2倍から5倍の高速化が可能であった。
これは13億と67億のパラメータからなるOPTモデルを使用して達成され、バッチ処理やKVキャッシュ最適化技術と直接互換性がある。
関連論文リスト
- Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference [83.34219335496073]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。
提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文 参考訳(メタデータ) (2023-10-23T17:47:34Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Transkimmer: Transformer Learns to Layer-wise Skim [17.188613474427054]
Transformerベースのモデルの主要な計算非効率の1つは、すべての層で同じ量の計算に費やしていることである。
本稿では,レイヤ毎に不要な隠れ状態トークンを識別するTranskimmerアーキテクチャを提案する。
スキミングされたトークンは直接最終出力に転送され、連続するレイヤの計算が削減される。
論文 参考訳(メタデータ) (2022-05-15T16:23:30Z) - AdapLeR: Speeding up Inference by Adaptive Length Reduction [15.57872065467772]
本稿では,下流性能の低下を最小限に抑えながら,BERTの計算コストを削減する手法を提案する。
提案手法は,レイヤ間のコントリビューションの少ないトークンを動的に除去し,結果として長さが短くなり,計算コストが低下する。
様々な分類タスクに関する実験では、性能の犠牲を伴わずに、推論時間中に最大22倍のスピードアップを示す。
論文 参考訳(メタデータ) (2022-03-16T23:41:38Z) - Magic Pyramid: Accelerating Inference with Early Exiting and Token
Pruning [19.93342734884434]
本稿では,トークンプルーニングによる幅と深さの計算と,トランスフォーマーモデルによる早期退避を両立させる新しいアイデアであるMagic Pyramid (MP)を提案する。
MPは、入力のサイズに関係なく、2つの一般的なテキスト分類タスクで平均8.06倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2021-10-30T11:07:43Z) - Accelerating BERT Inference for Sequence Labeling via Early-Exit [65.7292767360083]
我々は最近成功した早期退避機構を拡張し、シークエンスラベリングタスクに対するPTMの推論を高速化する。
また、異なる層で部分トークンを早期に退避させるトークンレベルの早期退避機構も提案する。
当社のアプローチでは,パフォーマンスの低下を最小限に抑えながら,最大66%~75%の推論コストを削減できる。
論文 参考訳(メタデータ) (2021-05-28T14:39:26Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z) - Acting in Delayed Environments with Non-Stationary Markov Policies [57.52103323209643]
本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。
実行が遅れると、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常である必要があることを証明します。
我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2021-01-28T13:35:37Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。