Fugu-MT 論文翻訳(概要): SkipDecode: Autoregressive Skip Decoding with Batching and Caching for Efficient LLM Inference

論文の概要: SkipDecode: Autoregressive Skip Decoding with Batching and Caching for Efficient LLM Inference

arxiv url: http://arxiv.org/abs/2307.02628v1
Date: Wed, 5 Jul 2023 19:59:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 16:03:17.556924
Title: SkipDecode: Autoregressive Skip Decoding with Batching and Caching for Efficient LLM Inference
Title（参考訳）: SkipDecode: 効率的なLCM推論のためのバッチとキャッシュによる自動回帰的スキップデコーディング
Authors: Luciano Del Corro, Allie Del Giorno, Sahaj Agarwal, Bin Yu, Ahmed Awadallah, Subhabrata Mukherjee
Abstract要約: バッチ推論とKeyValueキャッシュのためのトークンレベルの早期終了メソッドであるSkipDecodeを提案する。これは、各シーケンス位置のバッチ内の各トークンに対して特異レベル出口を設定することで、以前の制約を克服する。また、イグジットポイントの単調な減少を保証するため、前のトークンに対してKVキャッシュを再コンパイルする必要がなくなる。
参考スコア（独自算出の注目度）: 17.947904697850433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autoregressive large language models (LLMs) have made remarkable progress in various natural language generation tasks. However, they incur high computation cost and latency resulting from the autoregressive token-by-token generation. To address this issue, several approaches have been proposed to reduce computational cost using early-exit strategies. These strategies enable faster text generation using reduced computation without applying the full computation graph to each token. While existing token-level early exit methods show promising results for online inference, they cannot be readily applied for batch inferencing and Key-Value caching. This is because they have to wait until the last token in a batch exits before they can stop computing. This severely limits the practical application of such techniques. In this paper, we propose a simple and effective token-level early exit method, SkipDecode, designed to work seamlessly with batch inferencing and KV caching. It overcomes prior constraints by setting up a singular exit point for every token in a batch at each sequence position. It also guarantees a monotonic decrease in exit points, thereby eliminating the need to recompute KV Caches for preceding tokens. Rather than terminating computation prematurely as in prior works, our approach bypasses lower to middle layers, devoting most of the computational resources to upper layers, allowing later tokens to benefit from the compute expenditure by earlier tokens. Our experimental results show that SkipDecode can obtain 2x to 5x inference speedups with negligible regression across a variety of tasks. This is achieved using OPT models of 1.3 billion and 6.7 billion parameters, all the while being directly compatible with batching and KV caching optimization techniques.
Abstract（参考訳）: 自己回帰型大規模言語モデル(LLM)は、様々な自然言語生成タスクにおいて顕著な進歩を遂げている。しかし、それらは自己回帰トークン・バイ・トークン生成による高い計算コストと遅延を引き起こす。この問題に対処するために,アーリーエクイット戦略を用いて計算コストを削減する手法がいくつか提案されている。これらの戦略により、各トークンに全計算グラフを適用することなく、少ない計算を使用する高速なテキスト生成が可能になる。既存のトークンレベルの早期終了メソッドはオンライン推論に有望な結果を示すが、バッチ推論やキーバリューキャッシュに簡単に適用することはできない。これは、バッチの終了時に最後のトークンがコンピューティングを停止するまで待たなければならないためです。これはそのような手法の実用化を厳しく制限する。本論文では,バッチ推論とKVキャッシングをシームレスに行うための,単純かつ効果的なトークンレベルの早期終了手法であるSkipDecodeを提案する。これは、各シーケンス位置のバッチ内の各トークンに対して特異な出口点を設定することで、以前の制約を克服する。また、イグジットポイントの単調な減少を保証するため、前のトークンに対してKVキャッシュを再コンパイルする必要がなくなる。以前の作業のように計算を早期に終了させるのではなく、計算リソースの大部分を上位層に割り当てることにより、後のトークンが以前のトークンによる計算費用の恩恵を受けることができるのです。実験の結果,skipdecodeは様々なタスクで2倍から5倍の高速化が可能であった。これは13億と67億のパラメータからなるOPTモデルを使用して達成され、バッチ処理やKVキャッシュ最適化技術と直接互換性がある。

関連論文リスト

Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。 LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文参考訳（メタデータ） (2025-06-16T03:00:40Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
SuffixDecoding: Extreme Speculative Decoding for Emerging AI Applications [9.143856130336783]
投機的復号化は、大規模言語モデル(LLM)推論の遅延を低減するために広く採用されている。エージェントフレームワークは、同様のサブタスクを実行するマルチエージェントパイプラインや、アウトプットを反復的に拡張するセルフリファインメントループなど、反復的な推論要求を送信します。本稿では,効率的な接尾辞木を用いて長いトークン列をキャッシュする新しい手法であるemphSuffixDecodingを紹介する。
論文参考訳（メタデータ） (2024-11-07T18:49:33Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。 HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。 HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文参考訳（メタデータ） (2024-06-14T08:32:45Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文参考訳（メタデータ） (2023-10-23T17:47:34Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
Transkimmer: Transformer Learns to Layer-wise Skim [17.188613474427054]
Transformerベースのモデルの主要な計算非効率の1つは、すべての層で同じ量の計算に費やしていることである。本稿では,レイヤ毎に不要な隠れ状態トークンを識別するTranskimmerアーキテクチャを提案する。スキミングされたトークンは直接最終出力に転送され、連続するレイヤの計算が削減される。
論文参考訳（メタデータ） (2022-05-15T16:23:30Z)
Magic Pyramid: Accelerating Inference with Early Exiting and Token Pruning [19.93342734884434]
本稿では,トークンプルーニングによる幅と深さの計算と,トランスフォーマーモデルによる早期退避を両立させる新しいアイデアであるMagic Pyramid (MP)を提案する。 MPは、入力のサイズに関係なく、2つの一般的なテキスト分類タスクで平均8.06倍のスピードアップを達成することができる。
論文参考訳（メタデータ） (2021-10-30T11:07:43Z)
Accelerating BERT Inference for Sequence Labeling via Early-Exit [65.7292767360083]
我々は最近成功した早期退避機構を拡張し、シークエンスラベリングタスクに対するPTMの推論を高速化する。また、異なる層で部分トークンを早期に退避させるトークンレベルの早期退避機構も提案する。当社のアプローチでは,パフォーマンスの低下を最小限に抑えながら,最大66%～75%の推論コストを削減できる。
論文参考訳（メタデータ） (2021-05-28T14:39:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。