論文の概要: Serving Heterogeneous LoRA Adapters in Distributed LLM Inference Systems
- arxiv url: http://arxiv.org/abs/2511.22880v1
- Date: Fri, 28 Nov 2025 05:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.769713
- Title: Serving Heterogeneous LoRA Adapters in Distributed LLM Inference Systems
- Title(参考訳): 分散LLM推論システムにおける不均一ロラアダプタの実現
- Authors: Shashwat Jaiswal, Shrikara Arun, Anjaly Parayil, Ankur Mallick, Spyros Mastorakis, Alind Khare, Chloi Alverti, Renee St Amant, Chetan Bansal, Victor Rühle, Josep Torrellas,
- Abstract要約: Low-Rank Adaptation (LoRA)は,大規模言語モデル(LLM)のパラメータ効率向上のためのデファクト手法となった。
プロダクションでは、LoRAベースのモデルが大規模に提供され、数百のアダプタがベースモデルを共有するマルチテナント環境を生成する。
作業負荷を考慮した動的アダプタ配置とルーティングフレームワークであるLoRAServeについて述べる。
- 参考スコア(独自算出の注目度): 11.584593298674688
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Low-Rank Adaptation (LoRA) has become the de facto method for parameter-efficient fine-tuning of large language models (LLMs), enabling rapid adaptation to diverse domains. In production, LoRA-based models are served at scale, creating multi-tenant environments with hundreds of adapters sharing a base model. However, state-of-the-art serving systems co-batch heterogeneous adapters without accounting for rank (size) variability, leading to severe performance skew, which ultimately requires adding more GPUs to satisfy service-level objectives (SLOs). Existing optimizations, focused on loading, caching, and kernel execution, ignore this heterogeneity, leaving GPU resources underutilized. We present LoRAServe, a workload-aware dynamic adapter placement and routing framework designed to tame rank diversity in LoRA serving. By dynamically rebalancing adapters across GPUs and leveraging GPU Direct RDMA for remote access, LoRAServe maximizes throughput and minimizes tail latency under real-world workload drift. Evaluations on production traces from Company X show that LoRAServe elicits up to 2$\times$ higher throughput, up to 9$\times$ lower TTFT, while using up to 50% fewer GPUs under SLO constraints compared to state-of-the-art systems.
- Abstract(参考訳): Low-Rank Adaptation (LoRA) は,大規模言語モデル (LLM) のパラメータ効率向上のためのデファクト手法となり,多様な領域への迅速な適応を可能にしている。
プロダクションでは、LoRAベースのモデルが大規模に提供され、数百のアダプタがベースモデルを共有するマルチテナント環境が作成される。
しかし、最先端のサービスシステムでは、ランク(サイズ)のばらつきを考慮せずに異種アダプタをコバッチし、パフォーマンスが厳しいため、最終的にサービスレベルの目的(SLO)を満たすためにより多くのGPUを追加する必要がある。
ロード、キャッシュ、カーネル実行に重点を置いた既存の最適化は、この不均一性を無視し、GPUリソースを過小評価している。
作業負荷を考慮した動的アダプタ配置とルーティングフレームワークであるLoRAServeについて述べる。
GPU間でアダプタを動的に再バランシングし、GPU Direct RDMAをリモートアクセスに活用することにより、LoRAServeはスループットを最大化し、実際のワークロードドリフト時のテールレイテンシを最小限にする。
企業Xの製品トレースに関する評価によると、LoRAServeは2$\times$高スループット、9$\times$低TTFTを、最先端システムと比較してSLO制約下では最大50%少ないGPUを使用する。
関連論文リスト
- LoRAFusion: Efficient LoRA Fine-Tuning for LLMs [7.13923757932177]
Low-Rank Adaptation (LoRA) はLarge Language Models (LLM) のためのPEFT (Efficient Fine-Tuning) メソッドの先駆けとなった。
LLMのための効率的なLoRA微調整システムであるLoRAFusionを紹介する。
LoRAFusionはMegatron-LMと比較して最大1.96times$(平均1.47times$)エンドツーエンドのスピードアップを達成し、mLoRAよりも最大1.46times$(平均1.29times$)改善する。
論文 参考訳(メタデータ) (2025-09-30T19:26:22Z) - LoRA Fine-Tuning Without GPUs: A CPU-Efficient Meta-Generation Framework for LLMs [8.397730500554047]
Low-Rank Adapters (LoRA) は、パラメータ効率の更新を可能にすることで、Large Language Models (LLM) の微調整を変革した。
本稿では,限られた計算資源を持つユーザを対象としたLoRAファインタニング手法を提案する。
論文 参考訳(メタデータ) (2025-07-02T15:24:47Z) - HSplitLoRA: A Heterogeneous Split Parameter-Efficient Fine-Tuning Framework for Large Language Models [30.345920952847752]
大規模言語モデル(LLM)は、自然言語処理領域などに革命をもたらし、目覚ましいブレークスルーを達成した。
膨大なパラメータサイズのため、様々な下流タスクのためのプライベートデータでこれらのモデルを微調整することが主流になっている。
本研究では,分割学習(SL)と低ランク適応(LoRA)に基づくフレームワークであるHSplitLoRAを提案する。
論文 参考訳(メタデータ) (2025-05-05T17:09:19Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs [5.735411578779657]
Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法で、ベースLSMを複数の下流タスクに適応させるのに使われる。
LoRAプラットフォームにより、開発者は複数のモデルを微調整し、さまざまなドメイン固有のアプリケーションを同時に開発できる。
既存のモデル並列化スキームは、複数のLoRAタスクをトレーニングする際に、高い通信オーバーヘッドと非効率なGPU利用に悩まされる。
論文 参考訳(メタデータ) (2023-12-05T05:38:38Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。