Fugu-MT 論文翻訳(概要): EFIM: Efficient Serving of LLMs for Infilling Tasks with Improved KV Cache Reuse

論文の概要: EFIM: Efficient Serving of LLMs for Infilling Tasks with Improved KV Cache Reuse

arxiv url: http://arxiv.org/abs/2505.21889v1
Date: Wed, 28 May 2025 02:07:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.365488
Title: EFIM: Efficient Serving of LLMs for Infilling Tasks with Improved KV Cache Reuse
Title（参考訳）: EFIM: KVキャッシュリユースを改善したタスクを埋め込むためのLLMの効率的な実行
Authors: Tianyu Guo, Hande Dong, Yichong Leng, Feng Liu, Cheater Lin, Nong Xiao, Xianwei Zhang,
Abstract要約: クロスリクエストキー値 (KV) キャッシュの再利用は、中間計算を格納し再利用する手法である。タスクを埋め込むため、KVキャッシュの再利用は、しばしばプロンプトフォーマットの構造によって妨げられる。我々は、KVキャッシュの再利用性能を解放するFIMの変換プロンプトフォーマットであるEFIMを提案する。
参考スコア（独自算出の注目度）: 22.769631685777494
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are often used for infilling tasks, which involve predicting or generating missing information in a given text. These tasks typically require multiple interactions with similar context. To reduce the computation of repeated historical tokens, cross-request key-value (KV) cache reuse, a technique that stores and reuses intermediate computations, has become a crucial method in multi-round interactive services. However, in infilling tasks, the KV cache reuse is often hindered by the structure of the prompt format, which typically consists of a prefix and suffix relative to the insertion point. Specifically, the KV cache of the prefix or suffix part is frequently invalidated as the other part (suffix or prefix) is incrementally generated. To address the issue, we propose EFIM, a transformed prompt format of FIM to unleash the performance potential of KV cache reuse. Although the transformed prompt can solve the inefficiency, it exposes subtoken generation problems in current LLMs, where they have difficulty generating partial words accurately. Therefore, we introduce a fragment tokenization training method which splits text into multiple fragments before tokenization during data processing. Experiments on two representative LLMs show that LLM serving with EFIM can lower the latency by 52% and improve the throughput by 98% while maintaining the original infilling capability.EFIM's source code is publicly available at https://github.com/gty111/EFIM.
Abstract（参考訳）: 大規模言語モデル(LLM)は、与えられたテキストの不足した情報を予測したり、生成したりするタスクを埋め込むためにしばしば使用される。これらのタスクは、通常、同様のコンテキストで複数のインタラクションを必要とする。繰り返し発生する履歴トークンの計算を減らすため、中間計算を保存・再利用する技術であるクロスリクエストキー値(KV)キャッシュの再利用は、マルチラウンド・インタラクティブ・サービスにおいて重要な方法となっている。しかし、入力タスクでは、KVキャッシュの再利用は、通常挿入点に対する接頭辞と接尾辞からなるプロンプトフォーマットの構造によって妨げられることが多い。特に、接頭辞または接頭辞部のKVキャッシュは、他の部分(接頭辞または接頭辞)が漸進的に生成されるため、頻繁に無効化される。この問題に対処するために、我々は、KVキャッシュの再利用性能を解放するFIMの変換プロンプトフォーマットであるEFIMを提案する。変換されたプロンプトは効率の悪さを解消できるが、現在のLLMでは部分的な単語を正確に生成することが困難であるサブトークン生成の問題を露呈する。そこで本研究では,データ処理中にテキストを複数のフラグメントに分割してトークン化するフラグメントトークン化学習手法を提案する。 2つの代表的なLCMの実験では、EFIMで提供されるLLMは遅延を52%削減し、元のインフィル機能を維持しながらスループットを98%改善できる。EFIMのソースコードはhttps://github.com/gty111/EFIMで公開されている。

関連論文リスト

Causal2Vec: Improving Decoder-only LLMs as Versatile Embedding Models [3.8688081072587326]
Causal2Vecはデコーダのみの大規模言語モデルの性能を高めるために設計された汎用埋め込みモデルである。まず、入力テキストを単一のコンテキストトークンにプリエンコードするために、軽量のBERTスタイルのモデルを使用します。最後に,最後のテキスト埋め込みとしてコンテキストトークンとEOSトークンの隠れ状態を導入した。
論文参考訳（メタデータ） (2025-07-31T10:01:11Z)
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。 MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文参考訳（メタデータ） (2025-05-26T08:56:59Z)
EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文参考訳（メタデータ） (2024-10-20T08:42:29Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens [21.61634020256455]
変換器をベースとした大規模言語モデル(LLM)は、長期のコンテキストをモデル化する際に性能が低下する。本研究では,LLMが深呼吸を可能とし,個々のテキストチャンクに含まれる情報を要約する簡易かつ効果的な方法を提案する。
論文参考訳（メタデータ） (2024-06-16T15:50:10Z)
FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference [47.03691582405274]
大規模言語モデル(LLM)を外部コーパスから関連文書と統合した検索言語モデリング(RALM)は,情報生成の実証手法である。検索したコンテンツを利用する以前の作業は、単に入力にプリプロンプトするだけで実行時の問題が発生する。我々は、付加コンテキストパターンを用いて、ALMの推論効率を改善するために設計されたモジュラーALMであるFlashBackを提案する。
論文参考訳（メタデータ） (2024-05-07T07:14:38Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
TF-CLIP: Learning Text-free CLIP for Video-based Person Re-Identification [60.5843635938469]
ビデオベースのReIDのための一段階のテキストフリーCLIP学習フレームワークTF-CLIPを提案する。より具体的には、テキスト機能を置き換えるために、アイデンティティ固有のシーケンス機能をCLIPメモリとして抽出する。提案手法は,MARS,LS-VID,iLIDS-VIDの他の最先端手法よりも優れた結果を示す。
論文参考訳（メタデータ） (2023-12-15T09:10:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。