論文の概要: Efficient Multi-Adapter LLM Serving via Cross-Model KV-Cache Reuse with Activated LoRA
- arxiv url: http://arxiv.org/abs/2512.17910v1
- Date: Wed, 26 Nov 2025 02:34:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 00:37:57.037216
- Title: Efficient Multi-Adapter LLM Serving via Cross-Model KV-Cache Reuse with Activated LoRA
- Title(参考訳): 活性化 LoRA を用いたクロスモデル KV-Cache 再使用によるマルチアダプタ LLM の高速化
- Authors: Allison Li, Kristjan Greenewald, Thomas Parnell, Navid Azizan,
- Abstract要約: この研究は、パラメータ効率のモデル適応と高性能機能を橋渡しし、現代のLLM推論エンジンにおけるクロスモデルKV-cacheの再利用を初めて完全に実現した。
代表的なマルチターン、マルチアダプタパイプラインによる評価では、標準のLoRAベースラインと比較して、最大58倍のレイテンシ削減と100倍以上のタイム・ツー・ファーストの改善を実現している。
- 参考スコア(独自算出の注目度): 2.9970556802519184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language model (LLM) systems increasingly rely on multi-turn pipelines that are composed of multiple task-specific adapters, yet existing serving frameworks remain inefficient, incurring substantial recomputation overhead when switching between adapters. We present the first LLM serving engine that supports cross-model prefix cache reuse between base and adapted models via Activated LoRA (aLoRA), enabling efficient and fine-grained adapter switching during inference. Our design extends the vLLM framework by introducing base-aligned block hashing and activation-aware masking within the model execution path, permitting cache reuse across models while preserving compatibility with existing serving engine optimizations. Integrated into a production-grade inference stack, this approach supports dynamic adapter activation without excessive key-value tensor recomputation. Evaluation across representative multi-turn, multi-adapter pipelines demonstrates up to 58x end-to-end latency reduction and over 100x time-to-first-token improvement relative to standard LoRA baselines, with benefits that scale with model size and sequence length and manifest across all stages of the request lifecycle. This work bridges parameter-efficient model adaptation with high-performance serving, providing the first complete realization of cross-model KV-cache reuse in modern LLM inference engines.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)システムは、複数のタスク固有のアダプタで構成されるマルチターンパイプラインにますます依存しているが、既存のサービスフレームワークは非効率であり、アダプタを切り替える際にかなりの再計算オーバーヘッドが発生する。
本稿では,アクティベートされたLoRA(aLoRA)を介して,ベースモデルと適応モデルの相互キャッシュ再利用をサポートする最初のLCMサービスエンジンを提案する。
本設計では,モデル実行パス内にベース整合ブロックハッシュとアクティベーション対応マスキングを導入し,既存のサービスエンジン最適化との互換性を維持しつつ,モデル間のキャッシュ再利用を可能にすることにより,vLLMフレームワークを拡張した。
プロダクショングレードの推論スタックに統合され、過剰なキー値テンソル再計算なしで動的アダプタアクティベーションをサポートする。
代表的なマルチターン、マルチアダプタパイプラインによる評価では、標準のLoRAベースラインと比較して、最大58倍のレイテンシ削減と100倍以上のタイム・ツー・ファーストの改善を実現している。
この研究は、パラメータ効率のモデル適応と高性能機能を橋渡しし、現代のLLM推論エンジンにおけるクロスモデルKV-cacheの再利用を初めて完全に実現した。
関連論文リスト
- Loquetier: A Virtualized Multi-LoRA Framework for Unified LLM Fine-tuning and Serving [8.857656362783418]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を下流タスクに適用するためのPEFT技術として広く採用されている。
LoRAファインチューニングをシームレスに統合し、単一のランタイム内で機能するフレームワークであるLoquetierを紹介します。
論文 参考訳(メタデータ) (2025-10-30T17:14:27Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - EdgeLoRA: An Efficient Multi-Tenant LLM Serving System on Edge Devices [7.596547050649462]
本稿では,マルチテナント環境におけるエッジデバイス上での大規模言語モデル(LLM)の効率的な提供システムであるEdgeLoRAを紹介する。
EdgeLoRAは、(1)アダプタ設定プロセスを合理化するための適応型アダプタ選択機構、(2)インテリジェントなアダプタキャッシュとプーリングを活用してメモリ操作のオーバーヘッドを軽減する不均一なメモリ管理、(3)効率的なバッチ処理を可能にして計算遅延を大幅に削減するバッチLoRA推論という3つの重要なイノベーションを取り入れている。
論文 参考訳(メタデータ) (2025-07-02T07:47:28Z) - Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs [76.40876036912537]
大規模言語モデル(LLM)は、微調整を必要とせず、強力な少数ショット適応性を示す。
現在のVisual Foundation Models (VFM) は十分なチューニングデータを持つ明示的な微調整を必要とする。
そこで我々は, メタ学習目的の多様なLoRAからメタLoRAを蒸留するフレームワークであるLoRA Recycleを提案する。
論文 参考訳(メタデータ) (2024-12-03T07:25:30Z) - MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models [4.978361907192563]
MeteoRAはスケーラブルで効率的なフレームワークで、複数のタスク固有のLoRAアダプタをベースLLMに再利用する。
MeteoRAは複合タスクの処理において優れた性能を実現し、単一の推論パスで10のシーケンシャルな問題を効果的に解決する。
論文 参考訳(メタデータ) (2024-05-19T20:46:07Z) - Towards Modular LLMs by Building and Reusing a Library of LoRAs [64.43376695346538]
マルチタスクデータに対して最適なアダプタライブラリを構築する方法について検討する。
モデルベースクラスタリング(MBC)を導入し,パラメータの類似性に基づいてタスクをグループ化する手法を提案する。
ライブラリを再使用するために,最も関連性の高いアダプタの動的選択を可能にする新しいゼロショットルーティング機構であるArrowを提案する。
論文 参考訳(メタデータ) (2024-05-18T03:02:23Z) - LoongServe: Efficiently Serving Long-Context Large Language Models with Elastic Sequence Parallelism [12.521026493432181]
既存の大規模言語モデル(LLM)は、異なるフェーズにおける可変長要求を効率的に提供できない。
本稿では,異なる要求と位相の分散に対応するために,新しい並列性パラダイムである弾性列並列性(ESP)を提案する。
LoongServeは、チャンクプレフィルと比較して最大スループットを最大3.85$times$、プリフィルデコードデアグリゲーションと比較して5.81$times$に改善する。
論文 参考訳(メタデータ) (2024-04-15T07:45:04Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。