Fugu-MT 論文翻訳(概要): EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models

論文の概要: EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models

arxiv url: http://arxiv.org/abs/2410.15332v1
Date: Sun, 20 Oct 2024 08:42:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.039533
Title: EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models
Title（参考訳）: EPIC:大規模言語モデル実行のための効率的な位置非依存コンテキストキャッシング
Authors: Junhao Hu, Wenrui Huang, Haoyi Wang, Weidong Wang, Tiancheng Hu, Qin Zhang, Hao Feng, Xusheng Chen, Yizhou Shan, Tao Xie,
Abstract要約: EPICは、大きな言語モデルのための位置非依存のコンテキストキャッシュを導入している。 EPICはTTFTの最大8倍のスループットと既存のシステムに対する7倍のスループットを提供する。
参考スコア（独自算出の注目度）: 19.510078997414606
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are critical for a wide range of applications, but serving them efficiently becomes increasingly challenging as inputs become more complex. Context caching improves serving performance by exploiting inter-request dependency and reusing key-value (KV) cache across requests, thus improving time-to-first-token (TTFT). However, existing prefix-based context caching requires exact token prefix matches, limiting cache reuse in few-shot learning, multi-document QA, or retrieval-augmented generation, where prefixes may vary. In this paper, we present EPIC, an LLM serving system that introduces position-independent context caching (PIC), enabling modular KV cache reuse regardless of token chunk position (or prefix). EPIC features two key designs: AttnLink, which leverages static attention sparsity to minimize recomputation for accuracy recovery, and KVSplit, a customizable chunking method that preserves semantic coherence. Our experiments demonstrate that Epic delivers up to 8x improvements in TTFT and 7x throughput over existing systems, with negligible or no accuracy loss. By addressing the limitations of traditional caching approaches, Epic enables more scalable and efficient LLM inference.
Abstract（参考訳）: 大規模言語モデル(LLM)は、幅広いアプリケーションに必須であるが、入力がより複雑になるにつれて、効率的にそれらを提供するのがますます困難になっている。コンテキストキャッシュは、リクエスト間の依存性を利用して、リクエスト間でキー値(KV)キャッシュを再利用することで、サービスパフォーマンスを向上させる。しかし、既存のプレフィックスベースのコンテキストキャッシュは、正確なトークンプレフィックスマッチ、数ショットの学習におけるキャッシュ再利用の制限、複数ドキュメントのQA、あるいはプレフィックスが異なるかもしれない検索拡張生成を必要とする。本稿では,トークンチャンクの位置(またはプレフィックス)に関わらず,モジュール型KVキャッシュの再利用を可能にする,位置独立コンテキストキャッシュ(PIC)を導入したLCMサービスシステムEPICを提案する。 EPICには2つの重要な設計がある: AttnLinkは静的な注意空間を利用して精度回復のための再計算を最小化する。我々の実験は、EpicがTTFTの最大8倍のスループットと既存のシステムの7倍のスループットを、無視できるか、あるいは精度の低下のない形で提供することを示した。従来のキャッシュアプローチの制限に対処することで、Epicはよりスケーラブルで効率的なLLM推論を可能にします。

関連論文リスト

You Need an Encoder for Native Position-Independent Caching [28.778240400537175]
LLM(Large Language Models)のキーバリューキャッシュはプレフィックスベースである。位置独立キャッシング(PIC)は、位置制約なしでKVの再利用を可能にするために提案されている。我々は、エンコーダを一般的なデコーダのみのLLMに再導入し、PICをサポートするように明示的にトレーニングすることで、ネイティブなPICを提案する。さらに,既存の推論フレームワークとシームレスに統合可能なPIC対応キャッシングシステムであるCOMBを開発した。
論文参考訳（メタデータ） (2026-02-02T01:23:13Z)
MEPIC: Memory Efficient Position Independent Caching for LLM Serving [16.99046229452175]
位置,要求,バッチ間でのチャンクKVの再利用を可能にするメモリ効率のよいシステムを提案する。 MePICはチャンクKVをページストレージにアライメントし、再計算をトークンレベルからブロックレベルにシフトする。
論文参考訳（メタデータ） (2025-12-18T18:04:01Z)
Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-11T06:53:27Z)
Single-pass Adaptive Image Tokenization for Minimum Program Search [75.59409288259151]
本稿では,単一前方通過における画像に対する適切なトークン数を予測する単一パス適応型トークン化器KARLを提案する。 KARLは、1回のパスで動作しながら、最近の適応トークン化器の性能と一致する。
論文参考訳（メタデータ） (2025-07-10T17:59:53Z)
EFIM: Efficient Serving of LLMs for Infilling Tasks with Improved KV Cache Reuse [22.769631685777494]
クロスリクエストキー値 (KV) キャッシュの再利用は、中間計算を格納し再利用する手法である。タスクを埋め込むため、KVキャッシュの再利用は、しばしばプロンプトフォーマットの構造によって妨げられる。我々は、KVキャッシュの再利用性能を解放するFIMの変換プロンプトフォーマットであるEFIMを提案する。
論文参考訳（メタデータ） (2025-05-28T02:07:03Z)
Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation [80.69067017594709]
大規模言語モデル(LLM)とそのエージェントモデルは、以前のタスクからの推論を維持するのに苦労する。本稿では,従来の計算を直接再利用し,テスト時に過去のログから推論する新しいフレームワークであるLAGを提案する。本手法は,ログを使用しない標準的なエージェントシステムよりも優れている。
論文参考訳（メタデータ） (2025-05-20T14:14:38Z)
MPIC: Position-Independent Multimodal Context Caching System for Efficient MLLM Serving [32.56855948056532]
本稿では,マルチモーダル情報管理におけるより効果的な手法として,位置独立キャッシングを提案する。我々は,システムレベルの課題とアルゴリズムレベルの課題に対処するため,MPICというキャッシングシステムの設計と実装を行った。
論文参考訳（メタデータ） (2025-02-04T03:13:09Z)
EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation [8.757777529568383]
現在のRAGシステムは、検索モデルが最も関連性の高い文書のランク付けに失敗したときにしばしば苦労する。抽出文脈圧縮フレームワークEXITを紹介する。評価の結果,EXITは既存の圧縮手法を一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-12-17T05:38:27Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [68.71450519846081]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-oriented Token Batching [2.392066774757727]
大規模言語モデル(LLM)は、幅広い情報処理や管理タスクにおいて、ますます重要な役割を担っている。これらのタスクは通常プレフィックス共有の特徴を示し、異なるプロンプト入力は共通プレフィックスを部分的に示すことができる。既存のソリューションでは、リクエスト間の共通プレフィックスのKVコンテキストを再利用するために、LRUベースのキャッシュを使用している。上記の問題に対処するため,BatchLLMを提案する。
論文参考訳（メタデータ） (2024-11-29T05:57:37Z)
Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。 Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文参考訳（メタデータ） (2024-10-04T01:11:09Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
XC-Cache: Cross-Attending to Cached Context for Efficient LLM Inference [20.249206904309816]
インコンテキスト学習(ICL)アプローチは典型的には、参照情報に基づいて条件デコーダのみの言語モデルを生成するプロンプトを活用する。この研究は、エンコーダ・デコーダアーキテクチャにインスパイアされたモデルを導入し、プロンプトなしで参照テキストの条件生成にクロスアテンションを使用することにより、これらの制限に対処する。質問応答(QA)をテストベッドとして使用し、条件生成能力を評価し、ICLより優れており、微調整された誘導LDMと同等であり、標準KVキャッシュと比較して空間フットプリントを2桁の精度で大幅に削減する。
論文参考訳（メタデータ） (2024-04-23T18:10:42Z)
QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。 KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文参考訳（メタデータ） (2024-03-07T16:42:37Z)
ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition [3.659659889927316]
ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。実験の結果、ChunkAttentionは最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できることがわかった。
論文参考訳（メタデータ） (2024-02-23T09:29:19Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。