論文の概要: PrefillShare: A Shared Prefill Module for KV Reuse in Multi-LLM Disaggregated Serving
- arxiv url: http://arxiv.org/abs/2602.12029v1
- Date: Thu, 12 Feb 2026 14:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.878466
- Title: PrefillShare: A Shared Prefill Module for KV Reuse in Multi-LLM Disaggregated Serving
- Title(参考訳): PrefillShare: マルチLLM分散サービングにおけるKV再利用のための共有プリフィルモジュール
- Authors: Sunghyeon Woo, Hoseung Kim, Sunghwan Shim, Minjung Jo, Hyunjoon Jeong, Jeongtae Lee, Joonghoon Kim, Sungjae Lee, Baeseong Park, Se Jung Kwon, Dongsoo Lee,
- Abstract要約: マルチエージェントシステムは、複雑な現実世界の問題を解決するために複数の特殊言語モデルを編成する。
各モデルはプリフィルステージを実行し、独自のキー値キャッシュを保持し、集約されたプリフィルロードを増やし、テール遅延を悪化させる。
そこで本研究では,複数のモデル間でプレフィルステージを分離した設定で共有するアルゴリズムであるPrefillShareを提案する。
- 参考スコア(独自算出の注目度): 13.817047500501786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent systems increasingly orchestrate multiple specialized language models to solve complex real-world problems, often invoking them over a shared context. This execution pattern repeatedly processes the same prompt prefix across models. Consequently, each model redundantly executes the prefill stage and maintains its own key-value (KV) cache, increasing aggregate prefill load and worsening tail latency by intensifying prefill-decode interference in existing LLM serving stacks. Disaggregated serving reduces such interference by placing prefill and decode on separate GPUs, but disaggregation does not fundamentally eliminate inter-model redundancy in computation and KV storage for the same prompt. To address this issue, we propose PrefillShare, a novel algorithm that enables sharing the prefill stage across multiple models in a disaggregated setting. PrefillShare factorizes the model into prefill and decode modules, freezes the prefill module, and fine-tunes only the decode module. This design allows multiple task-specific models to share a prefill module and the KV cache generated for the same prompt. We further introduce a routing mechanism that enables effective prefill sharing across heterogeneous models in a vLLM-based disaggregated system. PrefillShare not only matches full fine-tuning accuracy on a broad range of tasks and models, but also delivers 4.5x lower p95 latency and 3.9x higher throughput in multi-model agent workloads.
- Abstract(参考訳): マルチエージェントシステムは、複雑な現実世界の問題を解決するために複数の専門言語モデルを編成し、しばしば共有コンテキストを通じてそれらを呼び出す。
この実行パターンは、モデル間で同じプロンプトプレフィックスを繰り返す。
その結果、各モデルはプリフィルステージを冗長に実行し、独自のキー値(KV)キャッシュを維持し、アグリゲートプリフィル負荷を増大させ、既存のLCMサービススタックにおけるプリフィル・デコード干渉を強化することでテール遅延を悪化させる。
Disaggregated Serviceは、プリフィルとデコードを別々のGPUに配置することでそのような干渉を減らすが、disaggregationは計算におけるモデル間冗長性と同じプロンプトのためのKVストレージを根本的に排除するわけではない。
この問題に対処するために,複数のモデル間でプレフィルステージを分離した設定で共有可能な新しいアルゴリズムであるPrefillShareを提案する。
PrefillShareはモデルをプリフィルモジュールとデコードモジュールに分解し、プリフィルモジュールを凍結し、デコードモジュールのみを微調整する。
この設計により、複数のタスク固有のモデルでプリフィルモジュールと同じプロンプトで生成されたKVキャッシュを共有することができる。
さらに,vLLMに基づく非集約システムにおいて,異種モデル間での効率的なプリフィル共有を可能にするルーティング機構を導入する。
PrefillShareは、幅広いタスクやモデルで完全な微調整の精度にマッチするだけでなく、4.5倍のp95レイテンシと3.9倍のスループットのマルチモデルエージェントワークロードを提供する。
関連論文リスト
- PLA-Serve: A Prefill-Length-Aware LLM Serving System [33.313531352453346]
PLA-Serveは、TTFTレイテンシを低減するために、異なるプロンプト長でリクエストを特定し、分解する。
提案手法は,適応型スケジューリング戦略のモチベーションとして,応答長の変動がボトルネックを生じさせることを観察する。
PLA-Serveは、プリフィル*-Lang*デコードデアグリゲーションの下でのバニラSGと比較して、プリフィル遅延を30%以上削減する。
論文 参考訳(メタデータ) (2026-01-04T18:14:24Z) - CDLM: Consistency Diffusion Language Models For Faster Sampling [54.886467592798]
拡散言語モデル(DLM)は有望な並列生成パラダイムを提供するが、推論が遅い。
本稿では,両方のボトルネックに同時に対処するトレーニングベースの加速度法CDLMを紹介する。
実験では、CDLMは3.6x-14.5倍のレイテンシを実現し、数学やコーディングタスクの競合精度を維持している。
論文 参考訳(メタデータ) (2025-11-24T16:21:25Z) - Self Speculative Decoding for Diffusion Large Language Models [21.955478721386953]
拡散に基づく大規模言語モデル (dLLMs) は自己回帰モデルに代わる競合モデルとして登場した。
textbfSelf textbfSpeculative textbfDecoding (SSD) を提案する。
SSDは最大3.46$times$ Speedupを実現し、出力はLLaDAやDreamのようなオープンソースのモデルで段階的に復号化される。
論文 参考訳(メタデータ) (2025-10-05T10:52:28Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [48.15777554876988]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Efficiently Serving Large Multimodal Models Using EPD Disaggregation [24.05805398635414]
Encode-Prefill-Decode Disaggregation(エンコード・プリフィル・デコード・デコード・デアグリゲーション)という,エンコード・プリフィル・デコード・デコード・デアグリゲーション(Encode-Prefill-Decode Disaggregation)というフレームワークを紹介した。
エンコーディングとプリフィルをバンドルする現在のシステムとは異なり、私たちのアプローチはこれらのステップを分離し、新たな機会と最適化を解放します。
一般的なLMMを用いた実験では、メモリ効率(ピークメモリ使用率の最大15倍)、バッチサイズ(最大22倍)、リクエストあたり10倍のイメージ、および2.2倍のKVキャッシュが大幅に向上した。
論文 参考訳(メタデータ) (2024-12-25T10:11:31Z) - Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。
本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文 参考訳(メタデータ) (2024-10-25T06:08:59Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。