論文の概要: POLAR: Online Learning for LoRA Adapter Caching and Routing in Edge LLM Serving
- arxiv url: http://arxiv.org/abs/2604.16583v1
- Date: Fri, 17 Apr 2026 14:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.090548
- Title: POLAR: Online Learning for LoRA Adapter Caching and Routing in Edge LLM Serving
- Title(参考訳): POLAR: エッジLLMにおけるLoRAアダプタキャッシングとルーティングのためのオンライン学習
- Authors: Shaoang Li, Jian Li,
- Abstract要約: PoLARは、アダプタルーティングのための2段階のコンテキスト帯域幅である。
固定エポックバージョンは、最悪の後悔の保証を備えた堅牢なベースラインを提供する。
PoLAR+は、強制探索とキャッシュ最適化の改善を加えて、正規性の下で$widetildemathcalO(dsqrtNT+sqrtKT)$ sublinear regretを達成する。
- 参考スコア(独自算出の注目度): 9.351444106520516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Edge deployment of large language models (LLMs) increasingly relies on libraries of lightweight LoRA adapters, yet GPU/DRAM can keep only a small resident subset at a time. Serving a request through a non-resident adapter requires paging its weights from storage, incurring measurable latency. This creates a two-timescale online control problem: on a slow timescale, the system selects which adapters remain resident in fast memory, while on a fast timescale it routes each request to an adapter whose context-dependent utility is unknown a priori. The two decisions are tightly coupled: the cache determines the cost of exploration, and the router determines which adapters receive informative feedback. We formulate this joint caching-and-routing problem as a two-timescale contextual bandit and propose POLAR (Paging and Online Learning for Adapter Routing). POLAR pairs a cache-aware LinUCB router with an epoch-based cache controller. We study two variants. A fixed-epoch version provides a robust baseline with worst-case regret guarantees under arbitrary contexts. An epoch-doubling version, POLAR+, adds forced exploration and improved cache optimization to achieve $\widetilde{\mathcal{O}}(d\sqrt{NT}+\sqrt{KT})$ sublinear regret under stochastic regularity and cacheability conditions, where $N$ is the adapter count, $K$ the cache size, $d$ the context dimension, and $T$ the horizon. The routing term matches the standard contextual-bandit rate up to logarithmic factors, showing that the memory hierarchy does not fundamentally slow routing learning. Experiments using 15 real LoRA adapters for Qwen2.5-7B together with measured GPU paging latencies show that adaptive cache control substantially outperforms non-adaptive baselines and exhibits scaling trends consistent with the theory.
- Abstract(参考訳): 大きな言語モデル(LLM)のエッジ展開は、軽量のLoRAアダプタのライブラリにますます依存している。
非レジデントアダプタを通じてリクエストを実行するには、ストレージからの重み付けを緩和し、測定可能なレイテンシを発生させる必要がある。
遅い時間スケールでは、どのアダプタが高速メモリに留まるかを選択し、高速な時間スケールでは、各リクエストを、コンテキスト依存のユーティリティが未知のアダプタにルーティングする。
キャッシュは探索コストを決定し、ルータはどのアダプタが情報的フィードバックを受け取るかを決定する。
本稿では,この共同キャッシング・ルーティング問題を2段階のコンテキスト帯域として定式化し,POLAR(Paging and Online Learning for Adapter Routing)を提案する。
POLARはキャッシュ対応のLinUCBルータとエポックベースのキャッシュコントローラをペアリングする。
我々は2つの変種を研究する。
固定エポックバージョンは、任意のコンテキスト下で最悪の後悔の保証を持つ堅牢なベースラインを提供する。
epoch-doubling バージョンである POLAR+ は、$\widetilde{\mathcal{O}}(d\sqrt{NT}+\sqrt{KT})$ sublinear regret under stochastic regularity and cacheability conditions, where $N$ is the adapter count, $K$ the cache size, $d$ the context dimension, $T$ the horizon という、強制的な探索とキャッシュ最適化を追加する。
ルーティング項は、対数要素までの標準的なコンテキスト帯域レートと一致し、メモリ階層がルーティング学習を根本的に遅くしないことを示す。
Qwen2.5-7B用の15個の実LoRAアダプタとGPUページングレイテンシを併用した実験では、適応型キャッシュ制御が非適応型ベースラインを大幅に上回っており、理論と整合したスケーリング傾向を示している。
関連論文リスト
- AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - DynaKV: Enabling Accurate and Efficient Long-Sequence LLM Decoding on Smartphones [10.813495376006427]
大規模言語モデル(LLM)は、効率的で効果的な長シーケンスデコードをサポートすることがますます期待されている。
DRAM容量が限られているため、スマートフォン上でのLLM復号化はキー値キャッシュ(KVCache)によって制限される。
我々はDynaKVを提案する。DynaKVはスマートフォン上での長時間デコードにおける精度と効率を両立させる最初の適応KVキャッシュ管理手法である。
論文 参考訳(メタデータ) (2025-10-20T08:56:02Z) - TokenLake: A Unified Segment-level Prefix Cache Pool for Fine-grained Elastic Long-Context LLM Serving [12.80179556886128]
セグメントレベルのプレフィックス・キャッシュ・プールであるTokenLakeを提案する。
キャッシュインターフェースを使用して、リクエストのクエリテンソル、プレフィックス、キャッシュ対応操作を公開します。
TokenLakeはスループットを最大2.6$times$と2.0$times$に改善し、ヒット率を2.0$times$と2.1$times$に向上させることができる。
論文 参考訳(メタデータ) (2025-08-24T05:45:16Z) - PentaRAG: Large-Scale Intelligent Knowledge Retrieval for Enterprise LLM Applications [5.4838799162708245]
我々はPentaRAGを紹介した。PentaRAGは5層モジュールで、各クエリを2つのインスタントキャッシュにルーティングする。
我々はPentaRAGがクエリ毎の平均GPU時間を0.248秒に削減したことを示す。
その結果、階層型ルーティング戦略は生産レベルのRAGシステムにおいて、鮮度、速度、効率性を同時に提供できることが示されている。
論文 参考訳(メタデータ) (2025-06-18T07:54:53Z) - Improving the Serving Performance of Multi-LoRA Large Language Models via Efficient LoRA and KV Cache Management [13.327937177980969]
タスク固有のLarge Language Model (LLM)アプリケーションでは、複数の低ランクアダプタ(Multi-LoRA)が人気を集めている。
既存のマルチロラ推論システムは、TTFT(Time-to-First-Toke)のようなサービス性能の最適化に失敗する
FASTLIBRAは、依存性を意識したキャッシュマネージャと、パフォーマンス駆動型キャッシュスワッパーを備える。
論文 参考訳(メタデータ) (2025-04-19T13:17:34Z) - QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - LoRA-Switch: Boosting the Efficiency of Dynamic LLM Adapters via System-Algorithm Co-design [23.874726096958135]
動的アダプタのきめ細かいコストを分析し、断片化されたカーネル呼び出しが根本原因であることを確かめる。
レイヤワイドまたはブロックワイドな動的ルーティングを採用する既存の動的構造とは異なり、LoRA-Switchはトークンワイドなルーティング機構を導入している。
効率を上げるために、このスイッチングは最適化されたカーネルで実装され、同時にすべてのLoRAアダプタの操作を融合させる。
論文 参考訳(メタデータ) (2024-05-28T01:53:26Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。