論文の概要: LRAgent: Efficient KV Cache Sharing for Multi-LoRA LLM Agents
- arxiv url: http://arxiv.org/abs/2602.01053v1
- Date: Sun, 01 Feb 2026 06:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.559766
- Title: LRAgent: Efficient KV Cache Sharing for Multi-LoRA LLM Agents
- Title(参考訳): LRAgent: マルチLORA LLMエージェントのための効率的なKVキャッシュ共有
- Authors: Hyesung Jeon, Hyeongju Ha, Jae-Joon Kim,
- Abstract要約: マルチLoRAエージェントのためのKVキャッシュ共有フレームワークであるLRAgentを提案する。
LRAgentはキャッシュを、事前訓練された重みから共有ベースコンポーネント、LoRA重みからアダプタ依存コンポーネントに分解する。
LRAgentは、完全に共有されたキャッシュに近いスループットとタイムツーファーストのレイテンシを実現する。
- 参考スコア(独自算出の注目度): 9.162948089580143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Role specialization in multi-LLM agent systems is often realized via multi-LoRA, where agents share a pretrained backbone and differ only through lightweight adapters. Despite sharing base model weights, each agent independently builds and stores its own KV cache for the same long, tool-augmented trajectories, incurring substantial memory and compute overhead. Existing KV cache sharing methods largely overlook this multi-LoRA setting. We observe that, across agents, cache differences are dominated by adapter outputs, while activations from the shared pretrained backbone remain highly similar. Based on this observation, we propose LRAgent, a KV cache sharing framework for multi-LoRA agents that decomposes the cache into a shared base component from the pretrained weights and an adapter-dependent component from LoRA weights. LRAgent reduces memory overhead by sharing the base component and storing the adapter component in its inherent low-rank form, and further reduces compute overhead, enabled by shared-$A$ multi-LoRA architectures, by also sharing the low-rank cache and avoiding redundant computations for contexts already processed by other agents. To efficiently reconstruct adapter contributions at runtime, we introduce Flash-LoRA-Attention, a kernel that reorders attention computation to avoid materializing the low-rank cache to full dimension. LRAgent achieves throughput and time-to-first-token latency close to fully shared caching, while preserving accuracy near the non-shared caching baseline across agentic question-answering benchmarks.
- Abstract(参考訳): マルチLLMエージェントシステムにおける役割特化は、エージェントが予め訓練されたバックボーンを共有し、軽量アダプタによってのみ異なるマルチLoRAによって実現されることが多い。
ベースモデルの重みを共有するにもかかわらず、各エージェントは独立して、ツール拡張された同じ長いトラジェクトリに対して独自のKVキャッシュを構築し、保存し、かなりのメモリと計算オーバーヘッドを発生させる。
既存のKVキャッシュ共有方法は、このマルチLoRA設定をほとんど見落としている。
エージェント間のキャッシュ差がアダプタ出力に支配されているのに対して、共有事前学習されたバックボーンからのアクティベーションは、非常によく似ている。
そこで本研究では,マルチLORAエージェントのKVキャッシュ共有フレームワークであるLRAgentを提案し,キャッシュを事前トレーニングした重みから共有ベースコンポーネントに分解し,LoRA重みからアダプタ依存コンポーネントを分離する。
LRAgentは、ベースコンポーネントを共有し、アダプタコンポーネントを固有のローランク形式で保存することでメモリオーバーヘッドを減らし、また、共有$A$マルチLORAアーキテクチャによって実現される計算オーバーヘッドを減らし、ローランクキャッシュの共有と、他のエージェントがすでに処理しているコンテキストに対する冗長な計算の回避を図っている。
実行時にアダプタのコントリビューションを効率的に再構築するために,低ランクキャッシュをフル次元にするのを避けるためにアテンション計算をリオーダするカーネルであるFlash-LoRA-Attentionを導入する。
LRAgentは、完全に共有されたキャッシュに近いスループットとタイム・ツー・ファーストのレイテンシを実現し、エージェントの問合せベンチマークで非共有キャッシュベースラインに近い精度を保っている。
関連論文リスト
- RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - Tensorized Clustered LoRA Merging for Multi-Task Interference [29.488565631016332]
マルチタスク設定では、ヘテロジニアスソースでトレーニングされたLoRAアダプタをマージすると、しばしばtextittaskの干渉が発生し、下流のパフォーマンスが低下する。
本稿では,タスクの干渉に対処するために,テンソル化されたクラスタ化LoRAライブラリを提案する。
TC-LoRAはPhi-3で+1.4%、Mistral-7Bで+2.3%の精度を達成し、LCM適応におけるTC-LoRAの有効性を示した。
論文 参考訳(メタデータ) (2025-08-06T01:26:43Z) - Improving the Serving Performance of Multi-LoRA Large Language Models via Efficient LoRA and KV Cache Management [13.327937177980969]
タスク固有のLarge Language Model (LLM)アプリケーションでは、複数の低ランクアダプタ(Multi-LoRA)が人気を集めている。
既存のマルチロラ推論システムは、TTFT(Time-to-First-Toke)のようなサービス性能の最適化に失敗する
FASTLIBRAは、依存性を意識したキャッシュマネージャと、パフォーマンス駆動型キャッシュスワッパーを備える。
論文 参考訳(メタデータ) (2025-04-19T13:17:34Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。