論文の概要: Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models
- arxiv url: http://arxiv.org/abs/2404.09529v1
- Date: Mon, 15 Apr 2024 07:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:09:46.059155
- Title: Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models
- Title(参考訳): Prepacking: 大規模言語モデルにおける高速なプレフィルとスループット向上のためのシンプルな方法
- Authors: Siyan Zhao, Daniel Israel, Guy Van den Broeck, Aditya Grover,
- Abstract要約: Prefillingは、自己回帰生成前のプロンプトにおける入力トークンのキー値キャッシュの計算である。
より長い入力プロンプト長の場合、プリフィルはデコード時間にかなりのオーバーヘッドをもたらす。
本稿では,プリフィル計算を最適化する簡易かつ効果的な方法であるPrepackingを提案する。
- 参考スコア(独自算出の注目度): 48.592730159983276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During inference for transformer-based large language models (LLM), prefilling is the computation of the key-value (KV) cache for input tokens in the prompt prior to autoregressive generation. For longer input prompt lengths, prefilling will incur a significant overhead on decoding time. In this work, we highlight the following pitfall of prefilling: for batches containing high-varying prompt lengths, significant computation is wasted by the standard practice of padding sequences to the maximum length. As LLMs increasingly support longer context lengths, potentially up to 10 million tokens, variations in prompt lengths within a batch become more pronounced. To address this, we propose Prepacking, a simple yet effective method to optimize prefilling computation. To avoid redundant computation on pad tokens, prepacking combines prompts of varying lengths into a sequence and packs multiple sequences into a compact batch using a bin-packing algorithm. It then modifies the attention mask and positional encoding to compute multiple prefilled KV-caches for multiple prompts within a single sequence. On standard curated dataset containing prompts with varying lengths, we obtain a significant speed and memory efficiency improvements as compared to the default padding-based prefilling computation within Huggingface across a range of base model configurations and inference serving scenarios.
- Abstract(参考訳): トランスフォーマーベースの大言語モデル(LLM)の推論において、プリフィルは自己回帰生成前のプロンプトにおける入力トークンに対するキー値(KV)キャッシュの計算である。
より長い入力プロンプト長では、プリフィルはデコード時間にかなりのオーバーヘッドをもたらす。
本研究は, プレフィルの落とし穴について述べる: 高変量プロンプト長さを含むバッチの場合, 最大長へのパディングシーケンスの標準的な慣行により, 大幅な計算が無駄になる。
LLMは、最大1000万のトークンを含む、より長いコンテキスト長をサポートするようになると、バッチ内のプロンプト長の変動がより顕著になる。
そこで本研究では,プリフィル計算を最適化する簡易かつ効果的な方法であるPrepackingを提案する。
パッドトークンの冗長な計算を避けるために、プリパッキングは、異なる長さのプロンプトをシーケンスに組み合わせ、ビンパッキングアルゴリズムを用いて複数のシーケンスをコンパクトなバッチにパッキングする。
その後、アテンションマスクと位置エンコーディングを変更して、複数のプリフィルされたKV-キャッシュを1つのシーケンス内で複数のプロンプトに対して計算する。
異なる長さのプロンプトを含む標準的なキュレートデータセットでは,Hugingface内の既定のパディングベースプリフィル計算と比較して,一連のベースモデル構成と推論提供シナリオに対して,大幅な速度とメモリ効率の向上が得られた。
関連論文リスト
- Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Hydragen: High-Throughput LLM Inference with Shared Prefixes [16.180954533675862]
Hydragenはハードウェアを意識した、共有プレフィックスによる注意の正確な実装である。
共有プレフィックスとユニークな接尾辞を別々に処理する。
提案手法は,競合するベースラインに対して最大32倍のスループットでエンドツーエンドのLLMスループットを向上させることができる。
論文 参考訳(メタデータ) (2024-02-07T18:53:01Z) - A Bayesian approach for prompt optimization in pre-trained language
models [1.980639720136382]
本稿では,大規模言語モデル (LLM) へのアクセスを伴ってテキスト入力に追加される離散トークンを直接検索するハードプロンプトチューニング (HPT) に焦点を当てる。
本稿では,pyTorch上に構築されたベイズ最適化研究のためのライブラリであるBoTorchを使用する。
論文 参考訳(メタデータ) (2023-12-01T10:10:18Z) - Chunk, Align, Select: A Simple Long-sequence Processing Method for
Transformers [25.86557845358799]
そこで本研究では,オフザシェルフ事前学習型トランスフォーマーにおいて,より長いシーケンス処理を実現するための簡単なフレームワークを提案する。
提案手法では,各時系列入力をチャンクのバッチに分割し,エンコーディングステップ中にインターチャンク情報をアライメントする。
我々は,変圧器のデコーダを環境とみなす効果的な隠れ選択ポリシーを学習する。
論文 参考訳(メタデータ) (2023-08-25T05:52:05Z) - SkipDecode: Autoregressive Skip Decoding with Batching and Caching for
Efficient LLM Inference [17.947904697850433]
バッチ推論とKeyValueキャッシュのためのトークンレベルの早期終了メソッドであるSkipDecodeを提案する。
これは、各シーケンス位置のバッチ内の各トークンに対して特異レベル出口を設定することで、以前の制約を克服する。
また、イグジットポイントの単調な減少を保証するため、前のトークンに対してKVキャッシュを再コンパイルする必要がなくなる。
論文 参考訳(メタデータ) (2023-07-05T19:59:09Z) - Unlimiformer: Long-Range Transformers with Unlimited Length Input [67.04942180004805]
Unlimiformerは、既存のトレーニング済みエンコーダ-デコーダ変換器をラップする一般的なアプローチである。
クロスアテンション計算をkNN(k-nearest-neighbor)インデックスにオフロードする。
Unlimiformerは、BookSumデータセットから500kのトークン長の入力を、テスト時に入力トランケーションなしで処理できることを示す。
論文 参考訳(メタデータ) (2023-05-02T17:35:08Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Memory-efficient Transformers via Top-$k$ Attention [23.672065688109395]
本研究では,バニラ注意のための簡易かつ高精度な近似法を提案する。
クェリをチャンクで処理し、各クェリに対してキーに関するトップ$kのスコアを計算します。
我々のアプローチは、スクラッチからのトレーニング、微調整、ゼロショット推論を含む複数のセットアップにおいて、バニラの注意にほぼ同一の精度をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-13T02:30:23Z) - Shortformer: Better Language Modeling using Shorter Inputs [62.51758040848735]
当初、モデルを短いサブシーケンスでトレーニングした後、長いサブシーケンスに移行する前に、どちらもトレーニング時間を短縮することを示す。
次に, 変圧器における再帰法の効率を改善する方法を示す。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。