論文の概要: EFIM: Efficient Serving of LLMs for Infilling Tasks with Improved KV Cache Reuse
- arxiv url: http://arxiv.org/abs/2505.21889v1
- Date: Wed, 28 May 2025 02:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.365488
- Title: EFIM: Efficient Serving of LLMs for Infilling Tasks with Improved KV Cache Reuse
- Title(参考訳): EFIM: KVキャッシュリユースを改善したタスクを埋め込むためのLLMの効率的な実行
- Authors: Tianyu Guo, Hande Dong, Yichong Leng, Feng Liu, Cheater Lin, Nong Xiao, Xianwei Zhang,
- Abstract要約: クロスリクエストキー値 (KV) キャッシュの再利用は、中間計算を格納し再利用する手法である。
タスクを埋め込むため、KVキャッシュの再利用は、しばしばプロンプトフォーマットの構造によって妨げられる。
我々は、KVキャッシュの再利用性能を解放するFIMの変換プロンプトフォーマットであるEFIMを提案する。
- 参考スコア(独自算出の注目度): 22.769631685777494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are often used for infilling tasks, which involve predicting or generating missing information in a given text. These tasks typically require multiple interactions with similar context. To reduce the computation of repeated historical tokens, cross-request key-value (KV) cache reuse, a technique that stores and reuses intermediate computations, has become a crucial method in multi-round interactive services. However, in infilling tasks, the KV cache reuse is often hindered by the structure of the prompt format, which typically consists of a prefix and suffix relative to the insertion point. Specifically, the KV cache of the prefix or suffix part is frequently invalidated as the other part (suffix or prefix) is incrementally generated. To address the issue, we propose EFIM, a transformed prompt format of FIM to unleash the performance potential of KV cache reuse. Although the transformed prompt can solve the inefficiency, it exposes subtoken generation problems in current LLMs, where they have difficulty generating partial words accurately. Therefore, we introduce a fragment tokenization training method which splits text into multiple fragments before tokenization during data processing. Experiments on two representative LLMs show that LLM serving with EFIM can lower the latency by 52% and improve the throughput by 98% while maintaining the original infilling capability.EFIM's source code is publicly available at https://github.com/gty111/EFIM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、与えられたテキストの不足した情報を予測したり、生成したりするタスクを埋め込むためにしばしば使用される。
これらのタスクは、通常、同様のコンテキストで複数のインタラクションを必要とする。
繰り返し発生する履歴トークンの計算を減らすため、中間計算を保存・再利用する技術であるクロスリクエストキー値(KV)キャッシュの再利用は、マルチラウンド・インタラクティブ・サービスにおいて重要な方法となっている。
しかし、入力タスクでは、KVキャッシュの再利用は、通常挿入点に対する接頭辞と接尾辞からなるプロンプトフォーマットの構造によって妨げられることが多い。
特に、接頭辞または接頭辞部のKVキャッシュは、他の部分(接頭辞または接頭辞)が漸進的に生成されるため、頻繁に無効化される。
この問題に対処するために、我々は、KVキャッシュの再利用性能を解放するFIMの変換プロンプトフォーマットであるEFIMを提案する。
変換されたプロンプトは効率の悪さを解消できるが、現在のLLMでは部分的な単語を正確に生成することが困難であるサブトークン生成の問題を露呈する。
そこで本研究では,データ処理中にテキストを複数のフラグメントに分割してトークン化するフラグメントトークン化学習手法を提案する。
2つの代表的なLCMの実験では、EFIMで提供されるLLMは遅延を52%削減し、元のインフィル機能を維持しながらスループットを98%改善できる。EFIMのソースコードはhttps://github.com/gty111/EFIMで公開されている。
関連論文リスト
- EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference [47.03691582405274]
大規模言語モデル(LLM)を外部コーパスから関連文書と統合した検索言語モデリング(RALM)は,情報生成の実証手法である。
検索したコンテンツを利用する以前の作業は、単に入力にプリプロンプトするだけで実行時の問題が発生する。
我々は、付加コンテキストパターンを用いて、ALMの推論効率を改善するために設計されたモジュラーALMであるFlashBackを提案する。
論文 参考訳(メタデータ) (2024-05-07T07:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。